网站程序自带的采集器采集文章(PHP采集就是使用程序通过自动化操作复制数据的方法介绍)
优采云 发布时间: 2021-10-09 01:16网站程序自带的采集器采集文章(PHP采集就是使用程序通过自动化操作复制数据的方法介绍)
采集 就是使用程序通过自动化操作来复制数据。
首先,只要浏览器能访问,就没有什么不能采集。
但是你可以通过某种方式让采集变得很麻烦,这会延迟采集的完成,在数据量很大的情况下增加采集的难度。
忽略一般情况,但有几种特殊情况:
1、认证方式,cookie,session,比如PHP可以使用fsockopen自定义HTTP Header,基本这些方式都没有效果。
2、限速,限制一定时间内打开的页面数。这只是推迟了,大部分时间效果平庸。比如一个站点限制在一分钟内打开30个网页,平均页面大小为30K,那么用迅雷批量下载就可以了。将限速设置为2K,醒来时一切都会好起来的。这个方法基本没有效果。
3、 一个比较特殊的方法,设置一个数量级的阈值。达到此数字后,您必须进行验证才能继续。例如,您需要输入验证码才能打开 10 个页面。这时候只需要保证验证码不可识别并分配一个Session,在后续浏览过程中使用session来保证用户的合法性,以免影响后续访问,同时可以有效防止采集。
4、 第三条对蜘蛛来说是致命的。这时候就可以通过手机蜘蛛的IP段来释放了。其他人则遵循严格的规则。
5、3+4真的无敌吗?远不放心,比如这个网站有10万个页面,设置100个代理,在阈值之前循环使用代理,实际上绕过了3个的限制。
6、还有别的办法吗?不会,因为你的 网站 可以用浏览器打开。
7、 另一种解决方案是开发专有浏览器和专有数据加密。
8、 在社会工程学方面,知识产权保护使得采集的风险远远大于成本,前提是你的数据值得你折腾。
换个角度看,数据不是最重要的,就像钱没有人重要一样。回想一百多年前,你们大清帝国拥有一流的装备,还是一败涂地。