如何才能把握好五种网页更新策略
如何才能把握好五种网页更新策略
搜索引擎在抓取时,不可能一下把所有的网站的页面都抓取了,而且所有的网站页面的内容都是在不断更的,所以搜索引擎为了抓到新的信息,更多的新页面,也会进行更新,同时也会把已抓到的页面进行分析、整理、维护。通常见到的页面维护方式我归纳为以下5种方式。1. 定期抓取,2.增量抓取,3.分类定位抓取,4.历史更新策略,5.用户体验策略。
种:定期抓取(主要用于更新周期慢的站点)
定期抓取也可以称为周期性抓取,也就是说搜索引擎会定期对已抓取的页面进行全面更新,有一定的规律。原理:用新抓取的页面替换过时页面,同时删除不存在的页面,并且把新的页面存储。这种更新方式,针对的是全部已抓取的页面,因此更新周期比较长。比如:GOOGLE一般是30到60天才会对已抓取的页面进行更新。这种算很简单并且周期长,一般的站长肯定不愿意选择这样的算法。它适用的面比较小,主要是用于一些内容更新得比较缓慢的站点,比如:一般的企业站,这种不能及时的向用户显示更新期间页面的变化情况,因为网站内容你更新了,要等到30-60天的时间才会在搜索引擎上体现出来。
第二种:增量抓取(主要用于页面更新及时并且观点新颖的站点)
它是通过已抓取的页面进行定时监控,实现对页面更新及维护,大家都知道,要进行网站所有的页面进行维护,肯定是不太现实的。基于2/8法则,搜索引擎只需要对网站页面中部分重要页面进行定时的监控,来获得网站比较重要的信息。
所以说增量抓取只针对一些比较重要的页面,而不是所有的页面,这就是为什么搜索引擎对重要页面的更新周期会更短的原因。举一个例子,经常更新的页面,搜索引擎也会经常对其进行更新,从而可能及时发现新内容、新链接,并删除不存在的信息,所以说这一点与之前是一样,各位站长一定要长期坚持更新页面,百度蜘蛛就更容易找到你。
第三种:分类定位抓取 (对信息分类抓取)
听起来有点高深,其实很简单,就是根据页面的类别或性质而制定相应更新周期的页面监控方式。例如:新闻资讯类的页面的更新周期可以精确到每一分种,而下载页面的更新周期就可以是一天或更长。
分类定位抓取可以把内容进行分类,这样就大大的节约了抓取时间,并且提高页面内容的实时性,增加了页面抓取的灵活性。但是这种分类方式抓取比较笼统,很跟踪页面的更新情况,所以说他就要结合(如增量抓取等)对页面进行监控和更新,这样让抓取的精确度更高,让新闻等一些即时性的内容能尽快显示在用户面前。
所以,现在搜索引擎对网站中的页面进行维护会采取多种方式相结合,为每一个页面选择合适的维护方式,这样就能减少搜索引擎的负担,又可以向用户提供即时的信息。这就现在搜索引擎高明地方。
第四种:历史更新频率策略(用于长期间在固定时间更新的页面的站点)
历史更新频率策略是基于这样一种思想:某个网页在过去某段时间内频繁更新,那么在将来的某个时间里也可能会频繁更新。比如:一个网站的首页,通过对它进行的监控可以分析出来它的内容更新规律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时获得网页中的新内容。所以我们在加站,更新网站内容的时候,好固定一个时间点,以方便搜索引擎抓取。
第五种:用户体验策略(用于长期更新页面及时的站点)
指的是为了提高搜索引擎用户体验而制定的针对性的网页更新策略。衡量搜索引擎用户体验有很多指标,而网页更新的及时性是其中一项重要因素
对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的网页。因此只要及时更新排名前30的网页,即可以省搜索引擎的资源,提高重要网页的更新频率,也可满足绝大部分用户取信息的需求。