网页访客qq抓取(《GS浏览器可以清除cookies吗》(图)的方法)
优采云 发布时间: 2021-12-07 06:09网页访客qq抓取(《GS浏览器可以清除cookies吗》(图)的方法)
常见问题>>> 网页信息爬取速度过快被封IP的情况如何处理
采集一个网站太频繁了,能采集的网页越来越少,连IP都会被封。只有控制采集的速度和频率,才能不断获取数据。另外,需要定期清理浏览器的cookies。
1、 请每天清除cookies后重启浏览器和爬虫。GS爬虫浏览器清除cookies的方法请看《GS浏览器能不能清除cookies》一文。
如果您使用的是火狐浏览器,清除cookies的操作如图:
2、控制采集速度的方法如下:
(1)爬虫群采集,请进入会员中心->规则管理,点击“调度”,可以设置以下调度参数,各调度参数含义见(2)@ >手动采集,通过DS计数机的配置菜单->滚动参数来控制抓取速度,滚动次数设置为较大的正整数,滚动速度设置为负整数,< @采集 速度会放慢,不勾选定时器触发器,不禁止图片加载,不禁止JS加载。另外,对于长网页和ajax网页,将超时时间调整为大于60秒, 并设置延迟爬行的时间值来减慢采集速度。
(3)如果自己写爬虫调度器,可以类似方法1在crontab中修改速度控制参数。
3、更改ip地址
在限制访问的情况下,建议更改ip。如果是adsl宽带拨号上网,重拨即可。如果是光纤上网,重启路由器。操作如下:
方法一。把路由器的电源关掉再开机,也就是重启路由器后,外网ip地址就变了。
方法 B. 需要登录路由器的web管理界面(当然前提是有账号密码,一般默认是admin),然后断开当前的外网连接,再重新连接网络,外网可以成功替换网络ip。