分析iss日志观察搜索引擎蜘蛛爬行方式
对于很多站长来说,分析iss日志都知道很重要,但是却很少去重视它。通常网站的基本数据都可以通过百度统计、站长工具查到,但是有些东西想通过这些常用的工具并不能全名链接网站的一些细节方面。比如说蜘蛛的爬去方式。通过iss日志我们做时可以很好的观察到网站被搜索引擎蜘蛛爬去的方式。那么我们为何要进行网站日志分析呢?大家可能发现自己网站的内页,通常情况下,搜索引擎不都是能收录你网站的内容页。这在一方面其实跟我们的蜘蛛爬去的方式可能存在一定的关系。
iss日志我们可以做些什么呢?
1、可以间接的分析网站的外链效果
2、我们的空间的好坏
3、蜘蛛对我们的页面哪些页面比较喜欢哪些页面不喜欢?
4、蜘蛛什么时候频繁访问我们的网站,我们究竟什么时候需要更新网站内容
通常我们看我们的iss日志的时候,通常情况下是看有多少的200状态吗,那么iss日志就那么点功能吧,其实不然,狼蚁网站SEO优化通过一些方面给大家介绍一下为什么seoer要养成看日志的习惯。
一、iss日志重要型表现在那些方面?
1.通过iss日志我们可以间接的发现蜘蛛在爬去你网站的时候的频繁度,外链的数量其实可以间接的反应你网站的的外链做的成功度。蜘蛛通过外部链接来爬去你网站的的时 候的内容,可以通过iss日志发现蜘蛛的抓取方式与轨迹。
2.iss日志的更新频率与网站的内容更新频率有一定的关系,网站的更新同时与网站的微调也有一定的关系!这些我们同时可以通过网站的iss日志可以看见
3.我们可以通过iss日志去发现我们空间那些地方出现问题了。这些东西都可以提前做好预警。通过iss日志分析我们可以间接的分析出一个网站空间的稳定性,我们可以很好
的发现到底哪个空间商不错!
4.通过蜘蛛我们可以发现到底哪些页面蜘蛛频繁抓取,这些页面频繁抓取对于我们的带宽严重浪费。所以我们就要好好的分析这些频繁的页面到底是哪些页面老是被频繁抓取,而 这些页面对你并没有多大的作用,那么我们可以通过网站的robots,屏蔽这些页面被频繁抓取。
二、如何下载日志及日志设置注意事项?
1.首页我们的空间log日志分析文件中会出现这个iss记录文件通过ftp从下载到本地。然后我们通过一些常用的日志分析工具可以发现一些规律,推荐大家使用光年日志分析 工具
2.对于大型网站一个iss日志会很大,用工具打开的时候会造成死机,对于小型的网站我们会发现还可以,可是大网站的话,确实是一件难事,不过我们可以采用即时下载 iss日志。会很好的解决这些问题,不过目前很多情况下发部分日志分析工具都可以解决这些问题,具体问题具体分析吧
三、iss日志的具体分析。
1.日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,对于BaiduSpider和Googlebot
百度蜘蛛
2012-03-13 00:47:10 W3SVC177 116.255.169.37 GET / – 80 – 220.181.51.144 Baiduspider-favo+(+ baidu /search/spider ) 200 0 0 15256 197 265
谷歌机器人
2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 200 31
我们分段来解释
2012-03-13 00:47:10 蜘蛛什么时候访问了你网站
W3SVC177 这个是机器码这个是惟一的 我们不去管它
116.255.169.37 这个IP地址是服务器的IP地址
GET 代表事件
GET后面就是蜘蛛爬取的网站页面,斜杠就代表首页
80 是端口的意思
220.181.51.144 这个IP则是蜘蛛的IP,这里告诉大家一个鉴别真假百度蜘蛛的方法,我们电脑点击开始运行输入cmd打开命令提示符,输入nslookup空格加蜘蛛IP点击回车 ,一般真百度蜘蛛都有自己的服务器IP而假蜘蛛则没有。
如果有时候你发现你的空间很多情况下又冒充百度蜘蛛的假蜘蛛来频繁访问你的网站,那么这个时候我们就要好好的去屏蔽这个ip,过度去采集我们网站的内容。
200 0 0 200反应蜘蛛抓取正常
197 265后两个数字则代表着访问和下载的数据字节数。
2.我们分析的时候先看看状态码 200代表下载成功,304代表页面未修改,500代表服务器超时,这些东西可以去搜索下,网上都有详细的说明。
3.我们可以通过蜘蛛喜欢那些页面,来预计估测蜘蛛到底喜欢什么内容,以后我们可以判断我们到底该怎么写我们网站内容。
4.有时候我们可以发现蜘蛛在爬去我们网站的时候到底出现了那些问题,对症下药!
5.我们通过蜘蛛抓取的频率可以很好的分析出那些时间段,时间频段蜘蛛常来,然后我们赶在这个时间对岸前把我们的网站更新,这样可以让搜索引擎知道咱们网站是新 的
6.蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。
7.不同IP的蜘蛛他们的抓取频率也是不相同的
作为一个合格的seoer人员要养成看日志的习惯,在日志中可以很清楚的看到我们网站的一切!