因为在端午节前。笔者做过一个实验,并且写了一篇实验报告《探究搜索引擎不收录网站内容与外链因素有无关系的实验》,具体实验内容,在这里就不再多说。因为笔者针对leyuanbaby.com做的这个实验结论,并没有达到想要的效果,所以我还没有死心,就通过网站日志来观察到底蜘蛛有没有爬行我未收录的链接。这个过程中,获得了一些关于分析网站日志心得,在这里分享给大家。
通过网站日志我们可以清晰的看到用户和搜索引擎蜘蛛访问网站的行为,并形成一个数据,这些数据可以让我们知道搜索引擎对于网站的态度,以及网站的健康情况。通过网站日志我们获取的指标有很多,比如:访问次数、停留时间、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等。
那么下面就通过实例来看看,网站日志是如何分析的:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2013-05-27 16:44:28
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc- substatus sc-win32-status
2013-05-27 16:44:27 W3SVC195483716 61.152.94.150 GET /index.html - 80 - 123.125.71.84 Mozilla/5.0+(compatible; +Baiduspider/2.0;++http://www.aoxsys.net/search/spider.html) 200 0 64
2013-05-27 16:45:15 W3SVC195483716 61.152.94.150 GET /index.html - 80 - 220.181.108.176 Mozilla/5.0+(compatible; +Baiduspider/2.0;++http://www.aoxsys.net/search/spider.html) 200 0 64
上面是我的站点leyuanbaby.com的5月27的网站日志情况,我们就根据以上的一段日志来分析,如何查看网站日志。
1.首先我们看到Software,这是指软件的名称,version表示的是软件的版本号,这两项就不再多说。
2.Date表示的是访问日期,即百度蜘蛛是什么时间来爬行的你的站点。
3. s-sitename:表示你的虚拟主机的代称或机器码;
4.s-ip:服务器IP;
5.cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作;
6.cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;
7.cs-uri-query:是指访问地址的附带参数,如asp文件后面的字符串id=12等等,如果没有参数则用“-”表示;
8.s-port:访问的端口
9.cs-username:访问者名称,如果没有参数则用“-”表示;
10.c-ip:访问者IP
11.cs(User-Agent):访问的搜索引擎和蜘蛛名称;
12.sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
通过上面的实例,我们已经知道了分析网站日志要看的各项数据,那么我们分析网站日志能给我们带来什么作用和提示呢笔者认为,网站日志可以给我们带来6项提示:
1.清晰明了的知道百度蜘蛛抓取网页的情况。
2.根据蜘蛛的爬行情况,我们可以看出搜索引擎收录网页的原则。
3.搜索引擎蜘蛛爬行站点是否正常,从而明白网站优化手段是否健康。
4.搜索引擎蜘蛛在哪个页面爬行最多,为什么喜欢这一页面,是否其他页面要向此页面学习。
5.搜索引擎蜘蛛很少访问的页面带给我们的提示是,这个页面可能存在一些搜索引擎不喜爱的东西,我们要去总结修改。
6.我们卸载robotS中的内容,搜索引擎有无访问
同时我们需要特别注意的是Http状态码,通过状态码,我们可以更明确的知道,这一页面存在什么样的问题,蜘蛛是如何评判的。Http状态码有很多,是每一位站长需要掌握和熟记的,在这里就不做多解释。
网站的健康分析、蜘蛛爬行规则等均是通过网站日志来观察,可以说网站日志就是蜘蛛和站长们交流的一种方式,学会看网站日志,对于网站优化有着很重要的作用。