内容采集(防采集方法弊端，就是站长忙了点适用)

优采云发布时间: 2022-03-09 00:31

　　如何防止网站的内容被采集1、一句话概括：js生成的内容网站没办法采集。

　　2、如何防止网站内容被采集

　　在实现很多反采集的方法时，需要考虑是否会影响搜索引擎对网站的抓取。所以，我们先来分析一下，通常有采集器和搜索引擎爬虫采集有什么不同。

　　相同点：

　　一种。两者都需要直接抓取网页源代码才能有效工作，

　　湾。两者会在单位时间内反复抓取大量访问过的网站内容；

　　C。宏观上来说，两个IP都会发生变化；

　　d。两人迫不及待的破解了你在网页上的一些加密（验证），比如网页内容被js文件加密，比如需要输入验证码才能浏览内容，比如需要登录才能访问内容等

　　区别：

　　搜索引擎爬虫首先会忽略整个网页的源脚本和样式以及HTML标签代码，然后对剩余的文本进行分词、语法分析等一系列复杂的处理。而采集器通常是通过html标签的特性来抓取需要的数据，而在制定采集规则时，需要填写目标内容的开始和结束标记，以便定位需要的内容；或者对特定网页使用特定的正则表达式来过滤掉所需的内容。无论你使用开始和结束标记还是正则表达式，都会涉及到html标签（网页结构分析）。

　　那我会想出一些反采集的方法

　　一、限制单位时间内每个IP地址的访问次数

　　分析：没有一个普通人可以在一秒钟内访问同一个网站5次，除非是程序访问，如果有这样的采集，只有搜索引擎爬虫和烦人的采集器。

　　缺点：一刀切，这将阻止搜索引擎从收录的网站

　　适用于网站：网站不严重依赖搜索引擎的人

　　采集器会做什么：减少单位时间的访问次数，降低采集的效率

　　二、屏蔽ip

　　分析：通过后台计数器，记录访客IP和访问频率，人工分析访客记录，屏蔽可疑IP。

　　缺点：好像没有缺点，就是站长忙

　　适用于网站：所有网站，站长可以知道是哪个google或者百度机器人

　　采集器它将做什么：打游击战！使用ip proxy采集改一次，但是会降低采集器的效率和网速（使用代理）。

　　三、使用js加密网页内容

　　注意：我没有接触过这个方法，只是来自其他来源

　　分析：不用分析，搜索引擎爬虫和采集器杀

　　对于网站：讨厌搜索引擎的网站和采集器

　　采集器会这样做：你那么好，你牺牲了，他不会来接你的

　　四、隐藏网站网页中的版权或一些随机的垃圾文字，这些文字样式写在css文件中

　　对于网站：全部网站

　　采集器怎么做：版权文字，好办，替换。对于随机垃圾文本，没办法，快点。

　　五、用户登录访问网站内容

　　分析：搜索引擎爬虫不会为每个此类网站设计一个登陆程序。据说采集器可以为某个网站设计模拟用户登录和提交表单的行为。

　　对于网站：网站讨厌搜索引擎，最想屏蔽采集器

　　采集器怎么做：制作一个模块供用户登录并提交表单

　　六、使用脚本语言进行分页（隐藏分页）

　　分析：还是那句话，搜索引擎爬虫不会分析各种网站的隐藏分页，影响搜索引擎对其收录。但是，采集作者在编写采集规则时，需要分析目标网页的代码，有一定脚本知识的人会知道真正的分页链接地址。

　　适用于网站：网站对搜索引擎依赖不高，采集你的人不懂脚本知识

　　采集器会做什么：应该说采集作者会做。反正他会分析你的网页代码，顺便分析你的分页脚本，不会多花多少时间。

　　七、反链保护措施（只允许通过本站链接查看，如：Request.ServerVariables("HTTP_REFERER")）

　　分析：asp和php可以通过读取请求的HTTP_REFERER属性来判断请求是否来自这个网站，从而限制了采集器，也限制了搜索引擎爬虫，严重影响了搜索引擎的能够网站@网站部分防盗内容收录。

　　适用于网站：网站很少考虑搜索引擎收录

0

2022-03-09

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集(防采集方法弊端，就是站长忙了点适用)

0 个评论

发起人

AI时代内容工厂

内容采集(防采集方法弊端，就是站长忙了点适用)

0 个评论

发起人

相关问题