爬虫抓取网页数据(2.NAT配置规则增强过滤规则(一)(组图))
优采云 发布时间: 2022-01-19 14:04爬虫抓取网页数据(2.NAT配置规则增强过滤规则(一)(组图))
如果你是站长,你会发现很多时候你的线上产品被一些不受欢迎的爬虫爬取,你的数据被盗,更多的时候还在我们的产品中留下一些垃圾数据给我们的用户在评估价值的时候带来一些误解产品,也阻碍了我们产品的健康稳定发展。
针对这个问题,我认为有必要通过一定的手段来避免,如下:
基本技能
1. 阻止攻击
对攻击行为具有灵活的拦截能力,可以通过浏览器的IP地址或者浏览器的cookie进行拦截。
用户拦截可以用不同的可定制形式表示,例如返回 404 错误页面和返回 403 访问禁止。
可以指定拦截时间。如果超过拦截时间,则允许访问,直到再次被行为分析引擎捕获并判断为恶意访问。
2. NAT判断
因为基本拦截是基于访问频率的,所以需要能够用技术手段来判断从NAT出口的访问,防止单IP出口误杀企业用户。NAT介绍:
3. 白名单
需要能够手动自定义白名单,将群组IP地址和某些可信任的合作伙伴加入非限制名单,以免影响正常业务运行。
扩展
1. 水印功能
水印功能是基本拦截能力的扩展。当用户被判断为恶意访问时,不会直接禁止用户访问,而是重定向到水印页面,需要人机识别。通过人机识别后,进入正常页面。根据配置,人机识别要求在一定时间后自动去除,直到用户再次被行为分析引擎判断为恶意用户。
2.配置规则增强
除了目前基本的频率统计,过滤规则可以增加更多的HTTP应用层协议分析功能。例如获取GET请求、POST请求、HTTP头等,根据内容匹配用户请求,部署过滤策略。加强了对字符串的操作能力,可以实现字符串的拼接和截取字符串的能力。
3.WEB应用防火墙功能
添加了同时拦截和过滤功能,例如 CRLF 攻击过滤。
如果能实现以上功能并开发一个工具,应该可以有效避免爬虫爬取,可以考虑在apache端实现