题记:这是一篇很有价值的文章,来自百度搜索研发部,里面透露着许多SEO技巧,原文已被删除。搜索引擎每天处理着数以亿计的查询请 求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。
一、什么页面价值
前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。
1)是否能解决某个特定的需求(价值)
2)是否可以通过某个常规的搜索方式获得该信息(检索)那 么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有 可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面 的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。
二、为什么要研究页面价值
首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。
第 二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下, 抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面 的应用。
第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为死链,或者被黑。对于这些页面,好的 搜索引擎会在第一时 间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的好页面。对于另一些页面,它不仅具有很高的检索价值,而且有很 强的时效性,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速 度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。