robots.txt带来的好处
添加评论
2010年2月4日
1、几乎所有的搜索引蜘蛛都支持robots.txt给出的爬行规则,协议规定搜索引擎蜘蛛进入网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。对于没有配置robots.txt的网站,搜索引擎蜘蛛将会被重定向至404错误页面。相关研究表明,如果网站采用了自定义的404错误页面,那么搜索引擎蜘蛛将会把其视作robots.txt—虽然其并非一个纯文本文件——这将给搜索引擎蜘蛛索引网站带来很大的困扰,影响对网站的收录。
2、robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,如email retrievers, 这类搜索引擎对大多数网站是没有意义的;还有image strippers,对于大多数非图形类网站来说其也没有太大意义,但确耗用大量带宽。
3、robots.txt可以制止搜索引擎对非公开页面的索引与爬行,如网站的后台程序,管理程序。事实上,对于网站运行中产生的某些临时页面来说,如果没有配置robots.txt,搜索引擎甚至会索引那些临时文件。
4、对于内容丰富,存在很多页面的网站来说。配置robots.txt的意义更为重大,因为很多时候其会遭遇搜索引擎蜘蜘给予网站的巨大压力。洪水般的搜索蜘蛛访问如果不加以控制,甚至会影响网站的正常访问。
5、同样地,如果网站内存在重复内容,使用robots.txt限制某些内容不被搜索引擎索引和收录,可以避免网站受到搜索引擎关于duplicate content的惩罚,保证网站的排名不受影响。
最新评论