关于搜索引擎蜘蛛抓取的几个问题

等风来 3月前 82


  网站的程序设计对于搜索引擎来说是很不友好的,这些不利于蜘蛛爬行和抓取的技术被定义为蜘蛛陷阱。

  1.FLASH

  2.SessionID

  3.各种跳转

  4.各种框架结构

  5.动态URL

  6.JavaScript链接

  7.强制使用Cookies

  1.FLASH

  在H5流行前,flash被很多程序员用于网页设计中,原因就是其强大的视觉体验感,但是网站中大量使用Flash对于搜索引擎来说是很不友好的,有的网站甚至将整个首页都作为FLASH文件,这就很明显的构成了蜘蛛陷阱,因为蜘蛛对于FLASH文件抓取的只是一个FLASH的文件链接,并没有其它可读取的文字内容。也就使得算法程序无法计算网站的相关性。

  2.SessionID

  随着网站程序的复杂性越来越高,很多网站使用回话ID跟踪用户的访问,每当用户访问网站的时候,网站程序都会对访问的页面成一个携带动态ID的URL,如此以来,搜索引擎蜘蛛每次访问时便得到同一个页面对应多个URL,这也是当今网站程序设计中常见的蜘蛛陷阱之一。所以建议跟踪用户的访问使用cookies,而不要选择SessionID。

  3.各种跳转

  除301跳转外,搜索引擎对其它的跳转方式都比较敏感,建议慎用,例如:JavaScript跳转、Flash跳转、MetaRefresh跳转等。

  4.各种框架结构

  作为一名程序员对框架结构(Frame)在熟悉不过,但框架结构也会对蜘蛛抓取造成致命的伤害。因框架结构对网站页面的维护更新是十分便捷的,所以在之前被广泛应用于网页程序设计,不过现在很少有程序员使用框架结构了,比较重要的原因之一就是框架结构不利于搜索引擎抓取

  5.动态URL

  定义:动态URL是指有数据库动态驱动产生的带有问号、等号。或参数的网址。随着搜索引擎的技术改革,动态URL抓取对搜索引擎来说已经不是什么大问题了,但动态URL对搜索引擎还是不利于爬行抓取的。并且也不利于用户体验。

  6.JavaScript链接

  由于JavaScript出色的动效制作被广泛引用于网站设计的导航等栏目,这对于搜索引擎来说也是十分不友好的表现,虽然目前搜索引擎已经在以技术上可以实现对JavaScript脚本中的链接提取,但是鉴于网络资源的宝贵性,搜索引擎不会对你的网站花费较大的成本的,所以我们要去迎合搜索引擎的喜好,而不是激发搜索引擎的潜能。所以网站导航链接最好使用HTML链接,当然CSS做导航同样可以有很好的视觉体验。

  7.强制使用Cookies

  某些网站为实现某种功能,强制用户使用Cookies,但搜索引擎来说就像是一个禁用了Cookies的浏览器。如此一来,只能造成搜索引擎蜘蛛无法正常访问网站。


最新回复 (0)
    • 呐喊
      2
        登录 注册 QQ登录
返回
发新帖