同样的一本搜索引擎原理书籍,不同的人可能有不同的理解程度,而且一些以前的seo理论虽然已经根深蒂固了,但是在目前的seo情况下已经不太实用了,比如一个收录问题。其实想准确了解索引、收录、site这些之间的关系,我们可以从基本的原理出发去考虑一些问题。
从搜索原理上讲,蜘蛛先抓取到一个网页的URL,然后对这个URL对应网页的内容进行下载、分析,对于符合其质量标准或有一定用途的网页进行索引,把索引后的网页放入索引数据库中。这时候索引库内的网页有些具有用户检索价值的有些是具有搜索引擎自身的检索价值的,对于对用户有检索价值的被索引的网页,会进行输出,也即是我们说的收录。而对仅仅有搜索引擎自身检索价值的网页可能并不输出,仅仅有一定的索引量而没有输出结果数,因此我们可以看到很多时候收录量会比索引量低很多。
站在搜索的角度而言,一个网站的网页数量有时候是大于目前所拥有的网页数量的。举例来讲,比如一个站有100个网页,对于用户或者站长而言,是100个网页,但是这100个网页可能进行了数据更新,网页改变等多个操作,不同版本或许能满足不同的需求,(因此我们也可以看到很多时候一个网页有不同的快照。)从这个角度而言,在搜索的眼中一个网站的网页数量是可以大于网站目前所拥有的输出网页数量的,特别对于频繁修改的网站或者URL不规范的站点。同时,站在搜索引擎的数据角度而言,其数据量可能由历史数据和更新数据等组成的,因此site相关结果值也大于site结果数。