采集网站内容(极度讨厌搜索引擎和采集器的网站采集器会怎么做?(一))

优采云 发布时间: 2021-11-16 14:11

  采集网站内容(极度讨厌搜索引擎和采集器的网站采集器会怎么做?(一))

  以下方法既能治标又能治本:

  1、限制一个IP地址单位时间内的访问次数

  分析:普通人不可能一秒访问同一个网站5次,除非是程序访问。有了这个偏好,就只有搜索引擎爬虫和烦人的采集器。

  缺点:一刀切,这也会阻止搜索引擎响应网站的收录

  适用网站:不依赖搜索引擎的网站

  采集器会做什么:减少单位时间内的访问次数,降低采集效率

  2、屏蔽ip

  分析:通过后台计数器记录访问者的ip和访问频率,人工分析访问记录,屏蔽可疑ip。

  缺点:貌似没有缺点,就是站长有点忙

  适用网站:所有网站,站长可以知道哪些机器人是谷歌或百度

  采集器 会做什么:打游击战!使用ip代理采集改一次,但是会降低采集器的效率和网速(使用代理)。

  3、使用js加密网页内容

  注意:这个方法我没接触过,只是从别处看的

  分析:不用分析,搜索引擎爬虫和采集器通杀

  适用网站:极度讨厌搜索引擎和采集器的网站

  采集器会这样:你太好了,你再好他也不来接你了

  4、在网页中隐藏网站版权或一些随机的垃圾文字,这些文字样式写在css文件中

  分析:虽然不能阻止采集,但是会在采集之后的内容里填上你的网站版权声明或者一些垃圾文字,因为一般采集器不会在同时 采集 你的 css 文件,这些文本没有样式显示。

  适用网站:所有网站

  采集器它会做什么:对于受版权保护的文本,易于处理,替换它。对于随机的垃圾文字,没办法,抓紧。

  5、用户可以登录访问网站内容*

  分析:搜索引擎爬虫不会为每一种这样的网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单行为。

  适用网站:我真的很讨厌搜索引擎,想屏蔽大部分采集器的网站

  采集器我会怎么做:为用户登录和提交表单的行为制作一个模块

  6、使用脚本语言做分页(隐藏分页)

  分析:再次,搜索引擎爬虫不会分析各种网站隐藏页面,影响搜索引擎收录。但是在写采集的规则时,采集要分析目标网页的代码,稍微懂脚本的人就会知道页面的真实链接地址。

  适用网站:网站对搜索引擎依赖不高,采集你的人不懂脚本知识

  采集器会做什么:应该说采集人会做什么,反正他要分析你的网页代码,顺便分析你的分页脚本。不需要太多额外的时间。

  7、反盗链措施(只允许通过本站页面查看,如:Request.ServerVariables("HTTP_REFERER"))

  分析:ASP和PHP可以通过读取请求的HTTP_REFERER属性来判断请求是否来自网站,从而限制了采集器,同时也限制了搜索引擎爬虫,严重影响搜索引擎的回应网站部分反盗链内容收录。

  适用网站:不考虑搜索引擎的网站收录

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线