采集网站内容(先来和百度的机器人采集器会怎么做:打游击战呗)
优采云 发布时间: 2021-08-30 17:06采集网站内容(先来和百度的机器人采集器会怎么做:打游击战呗)
在实现很多反采集的方法时,需要考虑是否会影响搜索引擎对网站的爬取,所以先分析一下一般的采集器和搜索引擎爬虫采集的区别。
相似之处:
一个。两者都需要直接抓取网页的源代码才能有效工作,
B.两者都会在单位时间内多次抓取被访问的网站内容;
c.宏观来看,两个IP都会发生变化;
d。两者中的大多数都急于破解您对网页的某些加密(验证)。比如网页内容是通过js文件加密的。比如浏览内容需要输入验证码,比如需要登录才能访问内容。
区别:
搜索引擎爬虫首先忽略整个网页源代码脚本和样式以及html标签代码,然后对剩余的文本进行词法、句法分析等一系列复杂的处理。 采集器一般是通过html标签的特性来抓取需要的数据。创建采集规则时,需要填写目标内容的起止符,以便定位到需要的内容;或者使用创建特定网页的特定正则表达式来过滤掉需要的内容。无论是开始结束标签的使用,还是正则表达式的使用,都会涉及到html标签(网页结构分析)。
那就来提出一些反采集的方法
1、限制IP地址单位时间内的访问次数
分析:普通人不可能一秒访问同一个网站5次,除非是程序访问。有了这个偏好,就只剩下搜索引擎爬虫和烦人的采集器了。
缺点:一刀切,这也会妨碍搜索引擎回复网站的收录
适用网站:不依赖搜索引擎的网站
采集器会做什么:减少单位时间内的访问次数,降低采集效率
2、shield ip
分析:通过后台计数器记录访问者的ip和频率,人工分析访问记录,屏蔽可疑IP。
缺点:貌似没有缺点,就是站长有点忙
适用网站:所有网站,站长可以知道哪些机器人是谷歌或百度
采集器会做什么:打游击战!使用ip代理采集改一次,但是会降低采集器的效率和网速(使用代理)。
3、使用js加密网页内容
注:这个方法我没接触过,不过好像是从别处传来的
分析:不用分析,搜索引擎爬虫和采集器通杀
适用网站:我真的很讨厌搜索引擎和采集器的网站
采集器会这样:你太好了,你再好他也不会来接你了
4、Hide 网站copyright 或网页中的一些随机垃圾文本。这些文字样式写在css文件中
分析:采集虽然无法阻止,但是采集之后的内容会填充你的网站版权声明或者一些垃圾文字,因为一般采集器不会也采集你的css文件,显示的文本没有样式。
适用网站:所有网站
采集器 会做什么:对于受版权保护的文本,易于处理,替换它。对于随机的垃圾文本,没办法,抓紧。
5、用户登录可以访问网站content
分析:搜索引擎爬虫不会为每一种这样的网站设计登录程序。听说采集器可以为某个网站设计一个模拟用户登录和提交表单行为。
适用网站:我真的很讨厌搜索引擎,想屏蔽大部分采集器的网站
采集器 会做什么:为用户登录的行为制作一个模块并提交表单
6、使用脚本语言进行分页(隐藏分页)
分析:再次,搜索引擎爬虫不会分析各种网站隐藏页面,影响搜索引擎的收录。但是采集zhe在写采集规则的时候,一定要分析目标页面的代码,稍微懂脚本的人就会知道页面的真实链接地址。
适用网站:不高度依赖搜索引擎的网站,以及采集你的人不懂脚本知识
采集器会做什么:应该说采集器会做什么,反正他要分析你的网页代码,顺便分析你的分页脚本,不会多花时间。
7、防盗链措施(只允许通过本站页面查看,如:Request.ServerVariables("HTTP_REFERER"))
分析:ASP和PHP可以通过读取请求的HTTP_REFERER属性来判断请求是否来自网站,从而限制采集器,同时也限制了搜索引擎爬虫,严重影响了搜索引擎对网站的响应@部分反水蛭内容收录。
适用网站:我对网站搜索引擎收录没有太多想法