最常见6大防采集套路及解决方式,建议采集!

优采云 发布时间: 2020-08-15 03:51

  什么是防采集

  用大白话来说,就是我们想借助工具采集某个网站的数据(前提其实是公开合法数据),但网站不想给你采集而设置的技术抵挡举措。

  网站常见的防采集套路有什么?

  防采套路1:输入验证码框验证

  

  采集难度:★☆☆☆☆

  常见网站:搜狗陌陌

  在采集某些网站过程中,爪子们是不是常常会碰到这样的情况,要求你输入验证码,否则就卡住进行不下去?

  对的,这是网站最常用且最基础的防采举措之一,它要求你必须你自动输入验证码里的数字和字母,才能继续听到更多信息或则进行下一步,以此来判定你是机器人还是真人。

  防采套路2:滑动拼图进行验证

  

  采集难度:★★☆☆☆

  常见网站:拉勾、B站

  验证码防采套路升级版,也是网站最常用来验证当前浏览用户是机器人还是人工的方法之一。

  它要求你必须滑动拼图到它指定的位置,才能通过验证进行下一步操作。

  防采套路3:登录验证

  

  采集难度:★★★☆☆

  常见网站:新浪微博、新榜

  这类网站通常须要登陆能够看见更丰富的信息,否则只会突显十分有限的内容。放在优采云采集器里,只要一启动,这类网站就立刻弹出登陆窗口,才能进行下一步,有时候都会出现在采集的过程当中。如果不懂的怎么设置登陆流程的脚爪,很快会提醒“采集终止”。

  防采套路4:数据加密

  

  采集难度:★★★★☆

  常见网站:大众点评

  有些网站通过对数据加密进行防采集。如大众点评(上图),我们在网页上见到的内容是这家饭店的“地址”,但我们打开源代码看,这段文字被早已被加密分离,这会导致哪些结果?

  这将造成即使你将它采集下来,文字也是乱码或支离破碎的,无法整合成一段完整的文字。

  防采套路5:反馈虚假数据

  

  采集难度:★★★★★

  常见网站:携程网

  最近见到一个同程开发写的贴子,关于她们是怎样给爬虫反馈“假数据”的。看完认为同程很“可怕了”!

  当你发觉辛辛苦苦采集下来的数据竟然是假的,请问你心累不心累?!所谓道高一尺,魔高一丈,遇到这些给你“投毒”的网站就请绕路吧,除非你想到更好的破解方式!

  防采套路6:禁止访问

  

  采集难度:★★★★★

  常见网站:个别网站

  小八目前还没怎样遇见过此类情况。当然,我们没事也不会故意“以身试法”,去试探网站的防采底线。

  这种情况,主要还是看网站的防采机制设计,如果触发了,通常的结果就是全面封锁和严禁。比如封你的帐号、封你的IP地址。一旦被封锁,网站会手动给你错误页面或未能使你正常浏览。

  几种最容易触发防采集的情况。

  

  1、采集速度过快、频次过低

  嗯?这个用户如何会1分钟浏览几十个页面呢?而且还是一天24小时不休息?有问题,我要去查查!啊,绝对是机器,封掉~!

  采集速度过快、频次过快很容易造成对方网站注意,对方人员很容易就辨识出你是机器在爬取它的内容,不是人类。毕竟正常人是没法象机器人那样不休不眠地高速运转。

  2、采集数据量过大

  当你速率和频次上来了,你采集的数据量将会太庞大,小八曾遇见脚爪三天采集几百万条数据的情况,如果对方官网防采严格,则容易触发防采集机制。

  3、一直使用同一个IP或帐户

  一旦对方网站发现你的IP/账户为机器爬虫,那么很有可能你的IP/账户都会被纳入她们的黑名单,以后不容许你访问或则给你展示一个错误页面,让你无从下手。

  针对防采集优采云推出了一系列智能防封解决方式!

  解决方式1:自动辨识输入验证码

  优采云提供验证码辨识控件,目前支持手动辨识8种类型智能辨识,包括字母、数字、汉字,还包括混和算数估算!

  

  解决方式2:自动滑动拼图验证

  遇到滑块?别担心,优采云支持手动辨识滑块验证,并且使机器手动拖动到指定位置,网站验证妥妥滴。

  

  优采云自动通过滑块验证

  解决方式3:设置手动登入

  优采云提供以下2种登陆模式:

  1)文本+点击登陆

  

  在优采云里设计登陆流程,在采集过程中优采云将手动输入用户和密码进行登陆(PS,优采云不会获取任何用户个人隐私)

  2)Cookie登陆

  在优采云中进行登陆,通过记住登入后的Cookie,下次直接以登陆后的状态打开网页进行采集。

  

  解决方式4:放慢采集速度

  1)Ajax加载

  

  AJAX:延时加载、异步更新的一种脚本技术。简单来说就是,我们可以通过Ajax技术使网页加载的时间更长一些(可以设置0-30秒),让浏览速率变慢一点点防止查封。

  2)执行前等待

  

  执行前等待是指在进行采集操作之前,优采云会手动默认等待一段时间,确保要采集的数据早已加载下来。这个方式同样适用于防采比较严格的网站,通过放慢采集速度来躲避反爬虫的追踪。

  解决方案5:优质代理IP

  

  优采云提供了优质的代理IP池,在采集过程中支持智能定时切换IP,避免同个IP采集被网站追踪封锁。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线