网页中flash数据抓取(常见的应该全力避免的网站数据技术被称为蜘蛛陷阱)

优采云 发布时间: 2021-12-25 17:18

  网页中flash数据抓取(常见的应该全力避免的网站数据技术被称为蜘蛛陷阱)

  由于缺乏网站优化知识,一些网站数据技术往往设计出对搜索引擎不友好、不利于搜索引擎蜘蛛抓取的页面。这些技术被称为蜘蛛陷阱。应避免的常见蜘蛛陷阱包括以下形式:

  1、闪存

  使用FLASH在网页的一小部分增强视觉效果是正常的,比如FLASH制作的广告和图标。这种小FLASH和图片一样。它只是 HTML 代码的一小部分。页面上还有其他基于文本的内容,因此对搜索引擎的抓取和收录没有影响。

  但有的网站只是一个大的FLASH文件,构成了蜘蛛陷阱。搜索引擎抓取的HTML代码中只有一个指向FLASH文件的链接,没有其他文字或链接。搜索引擎无法读取 Flash 文件中的文本内容和链接。这种网站整体上是一个FLASH网站,视觉效果可能很精彩,可惜搜索引擎看不到,也不能索引任何文字信息,所以无法判断相关性。

  2、会话ID

  一些网站使用会话 ID 来跟踪用户访问。当每个用户访问网站时,都会生成一个唯一且唯一的会话 ID,并将其添加到 URL 中。搜索引擎蜘蛛的每次访问都会被当作一个新用户,在URL中添加不同的会话ID,这样搜索引擎蜘蛛每次访问得到的同一个页面的URL就会不同,遵循使用不同的会话 ID。

  3、各种跳跃

  除了我们最常见的 301 重定向,搜索引擎对其他形式的跳转也比较敏感,比如 302 跳转、Javascript 跳转、Flash 跳转和 Meta Refresh 跳转。

  部分网站用户访问时会自动跳转到某个目录下的页面。如果是根据用户的地理位置切换到最合适的目录,那倒是情有可原。但是这种转向大多看不到任何理由或目的,如果避免,这种转向是可以避免的。

  如果必须重定向,搜索引擎推荐使用 301 重定向,用于 URL 更改重定向。页面权重可以从原创

URL 转移到新 URL。其他的转向方式是爬不上蜘蛛的,因为都是作弊方式。

  4、帧结构

  如果你是一个网站的站长,不知道什么是框架,那么恭喜你,你避开了这个蜘蛛陷阱。无需知道框架是什么。如果你还在URL设计中使用框架结构,建议取消。框架结构不利于搜索引擎抓取。搜索赢钱,访问志愿者使用框架的URL抓取的html只收录

调用其他html文件的代码,没有文本信息。搜索引擎无法确定网页。内容是什么。

  5、动态网址

  动态网址是指数据库驱动的网站生成的带有问号、等号和参数的网址。一般来说,动态网址不利于搜索引擎蜘蛛的抓取,应尽量避免。

  6、JavaScript 链接

  因为 JavaScript 可以创造出很多吸引人的视觉效果,所以一些网站喜欢使用 JavaScript 脚本来生成导航系统,这是一个严重的蜘蛛陷阱。虽然搜索引擎在尝试解析 JS 脚本,但我们不能指望搜索引擎能够自己克服困难。相反,搜索引擎应该尽可能简单和容易地跟踪爬行链接。

  7、 强制使用 Cookie

  为了实现某些功能,例如记住用户登录信息和跟踪用户访问路径,一些网站会强制用户使用cookies。如果用户浏览器未启用cookies,页面显示异常。搜索引擎蜘蛛相当于禁用 cookie 的浏览器。强制使用cookies只会导致搜索引擎蜘蛛无法正常访问。

  在此提醒广大站长,优化自己的网站是一个长期的过程。不想使用快速排名的方法。网站的蜘蛛陷阱是站长经常遇到的,最好避开。本文来自:跑官

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线