存档: 02月, 2010

网页的关键字分析

没有评论 2010年2月6日

还是先来说说什么是网页的关键字:

网页的关键字就是用户在搜索引擎中搜索信息、产品或服务时输入的词条。关键字是搜索引擎算法所进行的数学运算的一个因子,用来确定数十亿个网页与用户特定搜索之间的相关性。那些被搜索引擎算法认为与某个关键字搜索最为相关的页面将被依次排列出来。

网页的关键字可以是一个单字或包含这个字的一个词。用户在查找信息时,这两种方式均有用到。一般的规则是,关键词越长,从搜索引擎索引中返回的信息也就越精确。

介绍完了什么是网页的关键字,还是来看看这些关键字的具体用法:

  1. 什么是关键字密度(Keyword Density)?
  2. 关键字密度对网站排名的影响?
  3. 不同的搜索引擎对待关键字密度的态度都不同吗?
  4. 有关键字密度公式吗?
  5. 关键字密度与关键字分布是否有区别?
  6. 关键字的顺序对排名有影响吗?
  7. 关键字能否像链接锚文本一样起作用?
  8. title标签内的关键字重要吗?
  9. 关键字的形式会影响排名吗?
  10. 网页文本是否应该使用不同的关键字?
  11. 网页内容编辑的最佳方法是什么?
  12. 有计算关键字密度的工具吗?
  13. 一个网页可以有多个关键字吗?
  14. 什么是关键字堆砌(keyword stuffing)?
  15. 关键字堆砌(keyword stuffing)的常见形式有哪些?
  16. 一个网站是否会因为关键字堆砌而受到惩罚?

弱小与强大发生矛盾时总站在理这边

没有评论 2010年2月6日

今天,无意中被小孩子在头上给打了一下。因为用的是塑料绳,打的我特别的疼。一气之下扭头就要打他,看到是个小孩子真是又气又恨。气的是这小孩子太不懂事了,那能随便打人呢;恨的是被打了还不能还手,只能忍气吞声,当成什么事都没发生过。因为我是大人,所有要有大人的作风。也许是我心胸小的原因,也许是太痛的原因。我就是放不下这件事情,一点都不像个长大的人。

晚上,我把这件事告诉了老婆。让我郁闷的事发生了。老婆不但没有安慰两句,还把我给骂了一顿。也不听我解释,就成了我不对了。老婆说,就算我有理也不应该跟小孩子斗气。那里还有点大人的样子。就凭这点,就是我不对。我急得都掉了点眼泪。可还是抹不去我的寃情。只好记下来,当成个教训了。我的总结就是,你要是强大的话跟比你弱小的人斗,虽然可以斗嬴。但永远输在理这边。

以后想找点理,还是去跟比自己强大的对象说。

robots.txt带来的风险及解决办法

没有评论 2010年2月5日

1、凡事有利也有弊,robots.txt带来好处的同时也带来一定的风险。给网络攻击者指明了网站的目录结构及私密数据存放位置。虽说在Web服务器安全措施配置得当的情况下不是一个严重的问题,但是也降底了不怀好意者攻击的难度。比如:如果网站的私密数据通过www.yourname.com/admin/index.html访问,那么,robots.txt的设置可能如下

User-agent:*

Disallow:/admin/

在这种情况下,攻击者只需要看一下robots.txt既可知道你的私密数据在那里。在浏览器里输入:www.yourname.com/admin/既可访问我们不欲公开的内容。对于这种情况,一般采取如下方法:

设置访问权限,对/admin/中的内容实施密码保护,这样,攻击者便无从进入。另一种方法即是将缺省主文件index.html更名为其它。比如更名为abc-index.html。这样访问的目录即为www.yourname.com/admin/abc-index.html,同时,制作一个index.html内容大致为“你没有权限访问此页面”之类,这样,攻击者便因不知实际文件名而无法访问私密数据。

2、如果设置不对,将导致搜索引擎将索引的数据全部删除。

User-agent:*

Disallow:/

上述代码将禁止所有搜索引擎索引数据

别把懦弱当成忍耐

1条评论 2010年2月5日

最近老婆经常责问我为什么总是不去努力争取更好的生活和工作,我回答说自己能够忍耐苦日子,从小就是这么过来的,我不怕苦。在生活上我的确是能够忍耐苦日子,再苦都不觉得,所以也没想过过好日子。原因就是我能受苦为什么要去过好日子(现在想想真的挺可笑,可当时这是我真正的心理写照,所谓的好日子自己真的就没去想过)。可看到别人过好日子就说人家受不了苦,没什么出息。

偶然的机会看了一部电视剧,里面有个人开导他受挫的朋友说自己多么的能忍耐。大意是:小时候自己喜欢一个同学,可是发现自己的好友也喜欢这个同学,于是就装作不喜欢这个同学。以此来忍耐自己的感情。还有,就是自己小时喜欢玩的玩具因为弟弟妹妹也喜欢玩,就装作不喜欢玩来忍耐自己的感情。最后这个人真的就不喜欢那个同学了,也不喜欢自己想玩的玩具了。这个人想用自己忍耐的事实来劝说好友也要忍耐住现在的挫折。可他的朋友却不这么认为,然后给他讲了他小时的事。大意是:小时候,他的爸爸妈妈去世了,他非常的伤心。可是他知道这是不能改变的事实,自己再伤心,再争取爸妈也不会活过来。唯一的办法就是忍耐。而不是懦弱的不敢承认现实。他觉得这才是真正的忍耐。

看后,我大受启发。现实不就是这样吗。忍耐就是忍不可能的事情,对于可能的事情,能变化为现实的事情,自己付出努力就能争取的事情。为什么还要忍耐。这样的忍耐不是真正的忍耐,而是懦弱的表现。忍耐就是对于不可能之事,对于可能之事就要发奋去做让他变为现实。千万不能把懦弱当成忍耐。

过年可真累

没有评论 2010年2月4日

盼来盼去终于回到家过年了。本应该轻轻松松的,但我的感觉就是过年可真累。工作时累了觉得特有成就感,不觉得累。可是,到了过年,可以全身心的放松去休息时又觉得特别累,特别的没意思。睡醒了就吃饭,吃完饭就坐着。一家人说说话,一两天还行,时间一长也觉得没意思了。总之,就是特想去工作。我还真是矛盾。不过在家里闲着归闲着,要想去学习一会儿或者工作一会儿(我的工作是网络)都会分心,工作不下去。只能继续的闲着。可是人类给予自己的生存压力又迫使我不得不去想工作的事情。因为只有这样才能暂缓生存上的压力。这样矛盾的过着年还真是没多大意思。不累才怪呢!过年可真累,希望这是仅有的一次。

robots.txt带来的好处

没有评论 2010年2月4日

1、几乎所有的搜索引蜘蛛都支持robots.txt给出的爬行规则,协议规定搜索引擎蜘蛛进入网站的入口即是该网站的robots.txt,当然,前提是该网站存在此文件。对于没有配置robots.txt的网站,搜索引擎蜘蛛将会被重定向至404错误页面。相关研究表明,如果网站采用了自定义的404错误页面,那么搜索引擎蜘蛛将会把其视作robots.txt—虽然其并非一个纯文本文件——这将给搜索引擎蜘蛛索引网站带来很大的困扰,影响对网站的收录。

2、robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,如email retrievers, 这类搜索引擎对大多数网站是没有意义的;还有image strippers,对于大多数非图形类网站来说其也没有太大意义,但确耗用大量带宽。

3、robots.txt可以制止搜索引擎对非公开页面的索引与爬行,如网站的后台程序,管理程序。事实上,对于网站运行中产生的某些临时页面来说,如果没有配置robots.txt,搜索引擎甚至会索引那些临时文件。

4、对于内容丰富,存在很多页面的网站来说。配置robots.txt的意义更为重大,因为很多时候其会遭遇搜索引擎蜘蜘给予网站的巨大压力。洪水般的搜索蜘蛛访问如果不加以控制,甚至会影响网站的正常访问。

5、同样地,如果网站内存在重复内容,使用robots.txt限制某些内容不被搜索引擎索引和收录,可以避免网站受到搜索引擎关于duplicate content的惩罚,保证网站的排名不受影响。

robot mete标签的写法

1条评论 2010年2月3日

Robots mete标签主要针对一个个具体的页面。和其他的mete标签一样,Robots mete标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取网页的内容。

Robots mete标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

robot的特殊参数

没有评论 2010年2月3日

除了上一节介绍的robot的常用参数外,robot还有一些特殊的参数。

goolge

允许googlebot:如果想拦截除googlebot外的所有引擎访问网站可以使用下列语法:

User-agent:Disallow:/

User-agent:googlebot

Disallow:

Googlebot跟随指向他自己的行,而不是指向所有引擎的行。

ALLOW扩展名:

googlebot可以识别称为ALLOW的robots.txt标准扩展名。其它搜索引擎可能无法识别此扩展名,因此需要使用您感兴趣的其它搜索引擎查找。allow行的原理与disallow行一样。只需列出您要允许的页面或目录即可。

也可以同时使用disallow和allow。例如:要拦截子目录中某个页面之外的其它所有页面,可以使用下列条目:

User-agent:googlebot

Disallow:/folder1/

Allow:/folder1/myfile.html

这些条目将拦截folder1目录中除myfile.html之外的所有页面。 继续阅读…

robots.txt文件的格式

3 条评论 2010年2月2日

“robots.txt”可以包含一条或多条记录,这些记录通过空行分开,以CR、CR/NL、or NL作为结束符。每条记录的格式如下:

“<field>:<optionalspace><value><optionalspace>”。

robots.txt文件可以用#注解。该文件中的记录通常通过一行或多行User-agent开始,后面加上若干Disallow行。详细情况如下:

user-agent的值用来描述搜索引擎robot的名字。robots.txt文件中如果有多条user-agent记录,说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条user-agent记录。如果该项的值设为*,则该协议对任何机器人有效。在robots.txt文件中“user-agent:*”这样的记录只允许有一条。 继续阅读…

通过robots.txt引导搜索引擎robot的抓取

没有评论 2010年2月2日

搜索引擎通过一种程序robot(又称spider、机器人、蜘蛛),来访问互联网上的网页信息。对此,你可以通过一种纯文本文件robots.txt来引导搜索引擎robots的抓取。robots.txt的制作很简单,只要建立一个文本文件重命名为robots.txt。然后将写好限制条件的robots.txt上传到网站根目录就可以了。另外切记robots.txt的文件名必需小写,不能写成ROBOTS.TXT

还是来介绍一下robots.txt的写法,以便更好的引导搜索引擎对我们网站的抓取:

  1. robots.txt文件的格式
  2. robot的特殊参数
  3. robot METE标签的写法
  4. robots.txt带来的好处
  5. robots.txt带来的风险及解决办法