robot的特殊参数

添加评论 2010年2月3日

除了上一节介绍的robot的常用参数外,robot还有一些特殊的参数。

goolge

允许googlebot:如果想拦截除googlebot外的所有引擎访问网站可以使用下列语法:

User-agent:Disallow:/

User-agent:googlebot

Disallow:

Googlebot跟随指向他自己的行,而不是指向所有引擎的行。

ALLOW扩展名:

googlebot可以识别称为ALLOW的robots.txt标准扩展名。其它搜索引擎可能无法识别此扩展名,因此需要使用您感兴趣的其它搜索引擎查找。allow行的原理与disallow行一样。只需列出您要允许的页面或目录即可。

也可以同时使用disallow和allow。例如:要拦截子目录中某个页面之外的其它所有页面,可以使用下列条目:

User-agent:googlebot

Disallow:/folder1/

Allow:/folder1/myfile.html

这些条目将拦截folder1目录中除myfile.html之外的所有页面。

如果您要拦截googlebot并允许google的另一个漫游器(如googlebot-mobile),可以使用allow规则允许该漫游器访问。例如:

User-agent:googlebot

Disallow:/

User-agent:googlebot-mobile

Allow:

使用*号匹配字符序列:

您可以使用星号(*)来匹配字符序列。例如:要拦截所有以private开头的子目录的访问,可以使用下列条目:

User-agent:googlebot

Disallow:/private*/

要拦截对所有包含?号的网址的访问,可以使用下列条目:

User-agent:*

Disallow:/*?*

使用$匹配网址的结束字符

你可以使用$字符指定与网址的结束字符进行匹配。例如,要拦截以.asp结尾的网址,可以使用下列条目:

User-agent:googlebot

Disallow:/*.asp$

也可以将此匹配模式与allow指令配合使用。例如:如果?号表示一个会话ID,您可排除所有包含此ID的网址,确保googlebot不会抓取重复的网页。但是,以?结尾的网址可能是您要包含的网页版本。在此情况下可对robots.txt文件进行如下设置:

User-agent:*

Allow:/*?$

Disallow:/*?

Disallow:/*?一行将拦截包含?的网址(具体而言就是以你的域名开头然后是?后面又跟了任意字符串的网址)

Allow:/*?$一行将允许包含任何以?结尾的网址(具体而言就是以您的域名开头然后以?结束,后面没有任何字符的网址)

sitemap网站地图:

对网站地图的新的包含方式,就是在robots.txt文件里直接包括sitemap文件的链接。

就像这样:

sitemap:http://www.zijin5.com/index.xml

目前对此表示支持的搜索引擎公司有:google、yahoo、ask和msn。

不过,还是建议在google sitemap里进行提交,里面有好多功能可以分析您的链接状态。

  1. 还没有评论.想坐沙发?
  1. 还没有 trackbacks
订阅评论