防止搜索引擎爬网程序和网页采集器收录网页的方法摘要

优采云 发布时间: 2020-08-08 05:44

  以下方法可以治疗症状和根本原因:

  1. 限制IP地址每单位时间的访问次数

  分析: 除非是程序访问,否则任何普通人都不能每秒访问同一网站5次. 在这种偏好下,只有搜索引擎采集器和烦人的采集器.

  缺点: 一种尺寸适合所有人,这也将阻止搜索引擎包括该网站

  适用的网站: 不太依赖搜索引擎的网站

  采集器的工作: 减少单位时间内的访问次数并降低采集效率

  2,阻止ip

  分析: 通过后台计数器记录访问者的IP和频率,手动分析访问记录,并阻止可疑IP.

  缺点: 似乎没有缺点,但是网站管理员有点忙

  适用的网站: 所有网站以及网站站长都可以知道哪些漫游器是Google或百度

  采集器将做什么: 打游击战!使用ip代理采集一次并更改一次,但这会降低采集器的效率和网络速度(使用代理).

  3. 使用js加密Web内容

  注意: 我没有碰过这种方法,只是从其他地方看过

  分析: 无需分析,搜索引擎爬虫和采集器都被杀死

  适用的网站: 非常讨厌搜索引擎和采集器的网站

  采集器会这样做: 如果你这么好,如果你这么好,他就不会来接你

  4. 网站的版权或一些乱七八糟的文字被隐藏在网页中,这些文字样式被写在css文件中

  分析: 尽管无法阻止采集,但是采集的内容将用您网站的版权声明或一些垃圾文本填充,因为一般采集器不会同时采集您的css文件,并且文本将是没有样式显示. 出来.

  适用的网站: 所有网站

  采集器的工作方式: 对于版权文本,很容易处理,将其替换. 对于随机的垃圾文本,请快点.

  5. 用户可以登录以访问网站内容*

  分析: 搜索引擎爬网程序不会为每种此类网站设计登录过程. 我听说采集器可以设计为模拟用户登录并提交特定网站的表单行为.

  适用的网站: 讨厌搜索引擎并希望阻止大多数采集器的网站

  采集器的工作: 为用户登录行为创建一个模块并提交表单

  6. 使用脚本语言进行分页(隐藏分页)

  分析: 同样,搜索引擎爬网程序将不会分析各种网站的隐藏分页,这会影响搜索引擎将其收录在内. 但是,当采集器编写采集规则时,他必须分析目标网页代码,那些了解某些脚本知识的人将知道该页面的真实链接地址.

  适用的网站: 不高度依赖搜索引擎的网站以及那些采集您信息的网站不了解脚本知识

  采集器将要做什么: 应该说采集器将要做什么. 无论如何,他必须分析您的网页代码,并顺便分析您的分页脚本. 不需要太多时间.

  7. 反热链接措施(仅允许通过此网站的页面进行查看,例如: Request.ServerVariables(“ HTTP_REFERER”))

  分析: ASP和PHP可以通过读取请求的HTTP_REFERER属性来确定该请求是否来自此网站,从而限制了采集器,还限制了搜索引擎爬网程序,这严重影响了搜索引擎在网站上的反垃圾内容. 收录网站.

  适用的网站: 不要考虑搜索引擎中收录的网站.

  采集器会做什么: 伪装HTTP_REFERER,这并不困难.

  8,完整Flash,图片或pdf表示网站内容

  分析: 对搜索引擎采集器和采集器的支持不好. 许多对SEO有所了解的人都知道这一点.

  适用的网站: 专为媒体设计且不关心被搜索引擎编入索引的网站

  采集器的工作: 停止采集,离开.

  9. 网站随机采用不同的模板

  分析: 由于采集器根据网页结构定位所需的内容,因此,一旦两次更改模板,采集规则将变为无效,这还不错. 这对搜索引擎爬虫没有影响.

  适用的网站: 动态网站,不考虑用户体验.

  采集器将执行的操作: 一个网站的模板不能超过10个. 只需为每个模板制定一个规则. 不同的模板使用不同的采集规则. 如果模板超过10个,则由于目标网站非常难以更改模板,因此最好撤回.

  10. 使用动态和不规则的html标签

  分析: 这是异常现象. 考虑到带空格和不带空格的html标记的效果是相同的,因此效果与页面显示相同,但​​是用作采集器的标记是两个不同的标记. 如果页面的html标记中每次的空格数都是随机的,则

  采集规则无效. 但是,这对搜索引擎爬网程序影响很小.

  适用于网站: 所有不希望遵守网页设计准则的动态网站.

  采集器的工作: 仍然存在对策. 仍然有许多HTML清洁器. 首先清理html标签,然后编写采集规则;您应该在使用采集规则之前清理html标签,否则您可以获得所需的数据.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线