robot的特殊参数
除了上一节介绍的robot的常用参数外,robot还有一些特殊的参数。
goolge
允许googlebot:如果想拦截除googlebot外的所有引擎访问网站可以使用下列语法:
User-agent:Disallow:/
User-agent:googlebot
Disallow:
Googlebot跟随指向他自己的行,而不是指向所有引擎的行。
ALLOW扩展名:
googlebot可以识别称为ALLOW的robots.txt标准扩展名。其它搜索引擎可能无法识别此扩展名,因此需要使用您感兴趣的其它搜索引擎查找。allow行的原理与disallow行一样。只需列出您要允许的页面或目录即可。
也可以同时使用disallow和allow。例如:要拦截子目录中某个页面之外的其它所有页面,可以使用下列条目:
User-agent:googlebot
Disallow:/folder1/
Allow:/folder1/myfile.html
这些条目将拦截folder1目录中除myfile.html之外的所有页面。
如果您要拦截googlebot并允许google的另一个漫游器(如googlebot-mobile),可以使用allow规则允许该漫游器访问。例如:
User-agent:googlebot
Disallow:/
User-agent:googlebot-mobile
Allow:
使用*号匹配字符序列:
您可以使用星号(*)来匹配字符序列。例如:要拦截所有以private开头的子目录的访问,可以使用下列条目:
User-agent:googlebot
Disallow:/private*/
要拦截对所有包含?号的网址的访问,可以使用下列条目:
User-agent:*
Disallow:/*?*
使用$匹配网址的结束字符
你可以使用$字符指定与网址的结束字符进行匹配。例如,要拦截以.asp结尾的网址,可以使用下列条目:
User-agent:googlebot
Disallow:/*.asp$
也可以将此匹配模式与allow指令配合使用。例如:如果?号表示一个会话ID,您可排除所有包含此ID的网址,确保googlebot不会抓取重复的网页。但是,以?结尾的网址可能是您要包含的网页版本。在此情况下可对robots.txt文件进行如下设置:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/*?一行将拦截包含?的网址(具体而言就是以你的域名开头然后是?后面又跟了任意字符串的网址)
Allow:/*?$一行将允许包含任何以?结尾的网址(具体而言就是以您的域名开头然后以?结束,后面没有任何字符的网址)
sitemap网站地图:
对网站地图的新的包含方式,就是在robots.txt文件里直接包括sitemap文件的链接。
就像这样:
sitemap:http://www.zijin5.com/index.xml
目前对此表示支持的搜索引擎公司有:google、yahoo、ask和msn。
不过,还是建议在google sitemap里进行提交,里面有好多功能可以分析您的链接状态。
最新评论