存档: 标签: ‘百度’

通过百度收录的变动反思搜索引擎算法

2 条评论 2010年3月31日

今天查看百度收录时,网站的收录已完全恢复。回想昨天的情况,真是虚惊一场。仔细想想,估计就是百度进行内部调整。不过,这个速度也太可怕了。今天有,明天没的。不知道是不是在试探我们这些站长的心脏承受能力。

不过想想,幸好相信了自己。没有对网站进行调整。因为本身就没有作弊,采用的优化方式也是搜索引擎喜欢的。所以,被K的危险几乎不可能。可是这么大的变动也是事实,如果正在优化学习阶段的站长,估计就开始手忙脚乱的修改网站了。这样一来,是不是中了百度的圈套呢?

也不否认这样的情况。也许百度的凤巢系统就是这样设计的:通过时不时的对网站收录量大规模增添,以便影响站长的情绪。从而判断那些站是正在作弊的垃圾站,那些站是正规站。如果是垃圾站,一旦看到收录大幅度减少,站长肯定慌忙的修改网站,以便做到最优化,从而使搜索引擎对网站的收录量增加。如果是正规站,站长会把精力放在网站内容和用户的体验上。即使看到收录量的大幅度减少,也不会随便乱改网站的。

也许这也百度判断网站是否正规的方法。在收录量大幅度减少的一两天,如果网站不断的修改内容结构,就可能存在作弊的嫌疑,百度将会专门“照顾”。反之则会恢复网站的排名。

搜索引擎的变动性是很大的,建议大家对网站的结构不要经常性的改动。以免画蛇添足,影响网站的排名。

百度搜索条乱码的解决方法

没有评论 2010年3月24日

为了搜索方便,今天在网页右上部添加了个百度搜索条。因为页面宽度有限,就把百度的图标给删除了。弄好后,看着还算舒服。可一搜,问题就出来了。无论搜索什么,都是一堆乱码。这下可急了,要是好多人用这个搜,我还不得被骂死呀。

赶紧想办法解决问题。于是在百度知道里面提交了个问题。半天也没人回答,不等了。还是自己想办法。因为我上面加了两个搜索框,用google搜出来是正常的。我断定肯定是编码的问题。我网站用的是UTF-8编码。百度用的是GB2312编码。编码不一样。

也是说只要把我的UTF-8编码转换成GB2312编码就行了。显然,要在我的网站上运行这么个编码转换程序不太现实。于是我查看了google搜索条的代码。发现了有两行是这样的:

<input type=”hidden” name=”ie” value=”UTF-8″>
<input type=”hidden” name=”oe” value=”UTF-8″>

会不会是因为他的原因呢?于是,不管三七二十一的,就把这两行代码加到百度搜索条代码的<form></form>之间。上传,再次输入搜索信息,一切正常。

搞了半天,原来就是少了这么两行代码。建议百度将搜索代码里面加入这两行代码,那怕上面写上GB2312也好:

<input type=”hidden” name=”ie” value=”GB2312″>
<input type=”hidden” name=”oe” value=”GB2312″>

其码,别人拿到代码知道修改那。

百度免费搜索代码链接:http://www.baidu.com/search/freecode.html

搜索引擎百度

没有评论 2010年3月8日

搜索引擎百度是最大的中文引擎,中文站长必需重视的。对他的特点就有必要了解一二,避免百度发火K你。下面是我收集的关于百度的一些特点:

1.支持各种主流中文编码。包括汉字内码扩展规范(GBK)、简体(GB2312)、繁体(BIG5),且能够在不同编码之间转换。

2.字词结合的处理方式便于解决中文信息的理解问题,极大提高了搜索的准确性和查全率。

3.采用了基于内容和超链分析相结合的智能相关度算法,能够客观分析网页所包含的信息,从而最大限度保证了搜索结果的相关性。

4.支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。方便用户找到自己真正感兴趣的内容。

5.搜索结果标示了丰富的网页属性(包括标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读该文。 继续阅读…