简单的介绍几种常见的蜘蛛陷阱
简单的介绍几种常见的蜘蛛陷阱
首先搜索引擎常见的一种陷阱是Flash。在网页的某一小部分使用Flash增强视觉效果是和很正常的,比如用Flash做成广告,图标等。这样的Flash对搜索引擎的爬行与抓取是没有什么影响的。但是,万万不可在首页使用一个大大的Flash文件,因为这样就形成一个蜘蛛陷阱。当搜索引擎抓取的HTML代码只有一个连向Flash文件的连接,没有其他的文字内容。如果Flash效果是必须滴,那也要在首页加上一个通往HTML版本的链接。这个链接要在Flash文件之外的HTML代码中,搜索引擎跟踪这个链接可以抓取后面的HTML版本页面。
再一个常见的蜘蛛陷阱就是Session ID(会话ID)。有些网站使用Session ID跟踪用户反问,每个用户访问网站时都会生成独特的Session ID,加在URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户,URL中会加上一个不同的Session ID,这样搜索引擎蜘蛛每次来访问时所得到的同一个页面的URL将不一样,后面带着一个不一样的Session ID也是一个蜘蛛陷阱。
各种跳转也是蜘蛛陷阱之一,除了301转向以外,搜索引擎对其他形式的跳转都比较敏感,如:302跳转,JavaScript跳转,Flash跳转,Meta Refresh跳转。有些网站用户访问首页时会被自动转向到某个目录下的页面。但大部分这种首页转向看不出任何理由和目的,像这样的转向应能勉则勉,不到万不得已,尽量不要使用301转向以外的跳转。
框架结构也可以算是一种蜘蛛陷阱,如果你还在使用框架结构的设计,在这里建议大家立马停止。不要浪费时间如研究怎么让搜索引擎去收录框架结构网站。因为搜索引擎无法判断框架中的页面内容应属于主框架还是框架调用的文件。