搜索引擎是如何判断文章的原创度
并不是你网站有文章,是你自己写的,就一定会被搜索引擎认为这是一篇原创文章,因为其中还有很多技术方面的问题,搜索引擎还未能解决。
记得我曾经在一个网站每天更新一篇文章,一篇文章的字数只有100字左右,但是文章页面非常简单,简单到整个页面没有JS、CSS、HTML代码,只有文字,但收录却非常好,而有一些网站,用JS、CSS、html代码把网站修饰的非常漂亮,但是发布的文章却不收录,这让我开始觉得代码与原创度有直接关系。
我忘记了,在哪里看到过这样的一句话“搜索引擎只能识别200KB以内的内容”,对于一个网站而言,200KB算是很大了,我的博客只有30KB左右,所以我博客在搜索引擎中抓取是完全没有压力,如果你的网站有超过200KB,我觉得你是应该要优化了。
这和网站的文件大小有什么关系呢?好,我们来看看,搜索引擎在抓取一个页面的流程是从头到底,任何一个页面都有一个共同点,那就是头部一样、底部一样,唯一不一样的就是文章内容,那么搜索引擎在抓取头部有10KB左右是一模一样的,到中部文字的时候只有2KB是不一样的,而底部又有10KB是一模一样的,那么还会认为这是原创文章吗?
这里还得给大家灌输一个理念,那就是搜索引擎是不认识字的,他只有把这个汉字放到他的数据库去对比,当一对比一个新文章页面的时候,总共22KB的页面,居然有20KB一模一样,就算是写了原创文章,也会被列入到伪原创的列表中去。
经过我3年的SEO优化加测试,我对原创文章的判断得出了这样的一个理论,当一个页面比较大的时候,一个页面的不同点至少占页面的1/3,那么写多少文字呢,比如你页面有10KB,那么至少的写3KB的文字,剩下的7KB相同,这些才不容易被列入到伪原创的列表中。当然,这是我个人得出的理论,并没有完全的证据和理论来证明。