采集网站内容(极度讨厌搜索引擎和采集器的网站采集器会怎么做？(一))

优采云发布时间: 2021-11-16 14:11

　　以下方法既能治标又能治本：

　　1、限制一个IP地址单位时间内的访问次数

　　分析：普通人不可能一秒访问同一个网站5次，除非是程序访问。有了这个偏好，就只有搜索引擎爬虫和烦人的采集器。

　　缺点：一刀切，这也会阻止搜索引擎响应网站的收录

　　适用网站：不依赖搜索引擎的网站

　　采集器会做什么：减少单位时间内的访问次数，降低采集效率

　　2、屏蔽ip

　　分析：通过后台计数器记录访问者的ip和访问频率，人工分析访问记录，屏蔽可疑ip。

　　缺点：貌似没有缺点，就是站长有点忙

　　适用网站：所有网站，站长可以知道哪些机器人是谷歌或百度

　　采集器会做什么：打游击战！使用ip代理采集改一次，但是会降低采集器的效率和网速（使用代理）。

　　3、使用js加密网页内容

　　注意：这个方法我没接触过，只是从别处看的

　　分析：不用分析，搜索引擎爬虫和采集器通杀

　　适用网站：极度讨厌搜索引擎和采集器的网站

　　采集器会这样：你太好了，你再好他也不来接你了

　　4、在网页中隐藏网站版权或一些随机的垃圾文字，这些文字样式写在css文件中

　　适用网站：所有网站

　　采集器它会做什么：对于受版权保护的文本，易于处理，替换它。对于随机的垃圾文字，没办法，抓紧。

　　5、用户可以登录访问网站内容*

　　分析：搜索引擎爬虫不会为每一种这样的网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单行为。

　　适用网站：我真的很讨厌搜索引擎，想屏蔽大部分采集器的网站

　　采集器我会怎么做：为用户登录和提交表单的行为制作一个模块

　　6、使用脚本语言做分页（隐藏分页）

　　分析：再次，搜索引擎爬虫不会分析各种网站隐藏页面，影响搜索引擎收录。但是在写采集的规则时，采集要分析目标网页的代码，稍微懂脚本的人就会知道页面的真实链接地址。

　　适用网站：网站对搜索引擎依赖不高，采集你的人不懂脚本知识

　　采集器会做什么：应该说采集人会做什么，反正他要分析你的网页代码，顺便分析你的分页脚本。不需要太多额外的时间。

　　7、反盗链措施（只允许通过本站页面查看，如：Request.ServerVariables("HTTP_REFERER")）

　　分析：ASP和PHP可以通过读取请求的HTTP_REFERER属性来判断请求是否来自网站，从而限制了采集器，同时也限制了搜索引擎爬虫，严重影响搜索引擎的回应网站部分反盗链内容收录。

　　适用网站：不考虑搜索引擎的网站收录

0

2021-11-16

采集网站内容

0 个评论

要回复文章请先登录或注册