自己编撰网站防采集程序

优采云 发布时间: 2020-08-20 18:15

  自己编撰网站防采集程序

  对于我们这些数据量很大的网站,面临的一个麻烦是总有人来采集,以前多使用过人工检测、屏蔽的办法,这种办法有疗效但很费精力,前段时间也找了插件来自动限制最大连接数,但存在误屏蔽搜索引擎的问题,最近老朽下决定亲自操刀写程序,把那些采集器都斩草除根,虽然编程麻烦但效果好。

  思路是在Drupal的模板文件中嵌入PHP程序代码,读取$_SERVER参数并记录到数据库中,通过对参数及访问频度的判定来决定是否要访问者递交验证码,如果验证码错误或则不填写的次数过多则屏蔽,可以通过host反向dns查找来判断常见搜索引擎。

  这个程序还稍稍有点复杂,以前更改开源PHP程序都是直接上手,这个程序还编撰了流程图,数据库表结构也是自己规划的,为了防止拉慢速率,MySQL中采用了Memory引擎,对于多是临时访问记录早已够用了。程序写得太烂,就不放到博客中了。

  这个程序anti-scraping.php上周调试了几天,本周刚才投入试用,已经可以从日志中见到疗效,还须要不断改进,例如降低黑名单、白名单、尝试改用Drupal标准第三方模块的形式等。因为完成采用自己编程实现,所以可以对判断标准、屏蔽方法做各类更改尝试,应对各类采集器。

  版本历史:

  To Do List:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线