深圳易捷网络科技财税咨询网-neatmaster518.com 返回首页

站长平台lee:搜索引擎索引系统概述

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/9/19
互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。 1) 最常见的404代表NOT FOUND,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;

2) 503代表ServiceUnavailable,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。

3)403代表Forbidden,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。

4)301 代表是MovedPermanently,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

3、多种url 重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url 的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如百度站长平台百度开放平台等等。

相关行业资讯

1、响应式设计如何让企业网站随“机”应变
2、做网站一定要想办法留住你的用户
3、企业想要做网络推广需要建设网站吗
4、做了SEO优化网站却没有排名的原因是什么
5、网站制作需抓准哪些要点
6、网络推广利器“百度推荐”全新推出
7、网页设计师应该知道的心理学
8、新站中网站优化怎么做更有利
9、企业网站建设中怎样去规划布局
10、浅谈企业网站制作中的潜规则
11、公司企业网站制作费用
12、网站建设给出关于O2O网站建设的意见
13、企业网站制作对于细节要深思熟虑
14、内链在企业网站优化中的重要性
15、网站内部优化的8大途径
16、网站优化终极目标流量决胜负
17、深圳网站建设的成功与否应该是用户体验
18、建设网站助跑企业发展之路
19、如何做好响应式网站的前端设计
20、建设网站的花费取决于这些条件
21、站点流量暴增的原因有哪些
22、响应式商城网站要怎么设计
23、网站制作的前期规划
24、做好营销型网站建设方案需要注意什么
25、深圳网站的建设和运营究竟怎么做
26、企业公司选择哪种建站方式会更好
27、网站搜索引擎优化不靠谱的360搜索
28、艺术性和可用性在网站设计中缺一不可
29、营销型网站的盈利模式你知道吗
30、深圳网站建设长期在实现业绩突破
31、精品小站SEO关键词提词心得
32、微网的设计事项与价值分析
33、网站安全存在的诸多问题与注意事项
34、打破传统的seo优化方案
35、稳定提升网站排名的关键技巧
36、企业网站开发常忽略的五大危险环节
37、网站设计和评估
38、转载内容对SEO优化是利是弊
39、企业网站建设方案应该怎么做及包含哪些内容
40、网站页面标题的SEO优化怎么做
41、原创文章对网站有哪些好处
42、移动端网站建设的必要性是什么?
43、如何建设企业网站?有哪些好的方法
44、关于网站的标题,实用才是王道
45、写给SEO新手们:SEO后期职业发展局限性
46、网站推广时的错误理解
47、英文网站优化的相关注意事项
48、地方门户站点的线上线下盈利模式
49、婚庆网站:打造类似携程模式多元收入
50、网站建设用国内域名好还是国外域名好
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号