ZCMS基于隐藏链接的行为识别支持基于Cookie的访问限制
优采云 发布时间: 2021-08-14 23:10ZCMS基于隐藏链接的行为识别支持基于Cookie的访问限制
Zcmsanti-crawler 模块支持多种反爬虫机制,可以拦截99%以上的爬虫访问:
1.检查Referer和User-Agent
Zcms 将检查 http 标头中的 Referer 和 User-Agent 项目。对于没有Referer的Referer、不合规的Referer、不合规的User-Agent,都会被重定向到验证码输入页面,只有输入正确的验证码,以后才能浏览。
2.基于IP地址的访问限制
Zcms 支持基于 IP 地址的访问限制策略。默认情况下,如果每秒打开的页面数超过 3 个,相同的 IP 地址将被重定向到验证码输入页面,并且只能跟随正确的验证码。浏览。
3. 基于 Cookie 的访问限制
Zcms 支持基于 cookie 的访问限制策略。它会在每天第一次访问时向浏览器写入一个特定的cookie,以后每次访问都需要一个特定的cookie,没有特定cookie或地址变化频繁的相同IP的cookie将被重定向到验证码输入界面。
4. 内容 Javascript 混淆
Zcms支持列表页面和内容详情页面的Javascript混淆。列表页和内容详情页中的内容会自动从普通的 HTML 代码混淆为 Javascript 代码。 Javascript代码会在普通用户浏览时执行。它呈现为正常的 HTML 内容,但大多数爬虫无法正确执行这些 Javascript 代码。
5.基于隐藏链接的行为识别
Zcms 支持在列表页和内容详情页放置隐藏链接和彩色透明链接。这些链接的形式与普通 URL 非常相似。普通浏览者不会点击这些链接,但大多数爬虫会解析这些链接并尝试爬取,会被Zcms识别为爬虫。
6.基于URL规则的行为识别
Zcms 支持基于 URL 规则的行为识别。访问网站时,正常的浏览行为会下载大量的图片、JS文件、CSS文件等资源文件,爬虫不会去。下载这些资源文件。 Zcms通过随机改变某些资源的最后修改时间来诱导浏览器下载这些资源文件,未下载的将被识别为爬虫。
7.基于时间分布的行为识别
一个人对单个网站的正常浏览行为在时间分布上会有一定的规律,通常集中在几个集中的时间段内。如果检测到某个IP或者某个特定的cookie,时间分布比较均匀,时间跨度大(比如一天有18小时以上的访问记录),就会被识别为爬虫。
8. 伪数据
Zcms对于检测到的爬虫行为不会重定向验证码和返回错误信息,而是会自动生成假数据将正常的200状态响应结果返回给爬虫,提高爬虫数据分析的难度。
>