网页文章自动采集(如何解决验证码怎么办的时间不确定?(一) )

优采云 发布时间: 2021-12-28 12:08

  网页文章自动采集(如何解决验证码怎么办的时间不确定?(一)

)

  摘要:验证码的出现一般是由于采集速度较快,采集的数据较多,触发了网站的反采集机制。解决方案是由于它的不确定性,并不是每条采集到的数据都会有验证码。因此,需要在规则中引入分支判断来判断验证码是否出现在网页上。

  收款过程中遇到验证码怎么办?

  验证码出现的时间不确定!

  位置也不确定!

  那么我们如何解决呢?

  原因:这种情况一般是采集速度比较快,采集的数据量大,触发了网站的反采集机制。

  解决方案:由于其不确定性,验证码不会出现在采集的每条数据中。因此,需要在规则中引入分支判断来判断验证码是否出现在网页上。例如,当它出现时,它会去左分支,当它不出现时,它会去右分支。对于分支判断,一般可以选择“当前页面收录

文本”。详情请根据网页实际情况进行操作。分支判断的使用请参考对应教程,教程链接:

  在配置规则的过程中,应采用判断后识别验证码的流程顺序。另外,由于验证码不会时常出现,所以需要找到验证码出现的界面,完成“身份验证码”步骤的建立。

  操作示例:

  1、 按照正常流程制定规则。

  

  2、 运行单机采集,采集部分数据后发现提示访问频繁,需要验证码。

  这时候就应该停止征集,修改规则。

  

  3、回到“流程”页面,将流程设计器左栏的“判断条件”拖到流程图中。

  

  4、设置判断条件。(正常会出现在验证码页面的页面不会出现。例如:您的访问错误,验证输入框的xpath。示例使用验证码提示“您的访问出错”,您可以选择适当的判断条件。详细操作请参考分支判断的使用。)

  

  采集过程中出现验证码,出现时间甚至位置不确定-图4

  5、判断条件设置好后,点击需要识别的验证码。如图:

  

  

  (对于上述过程,前三步也可以按以下顺序进行:

  A.点击网页上的验证码输入框

  B. 点击“身份验证码”

  C.点击网页上的验证码

  即先选择验证码还是先选择输入框,两者目的相同,请灵活应用。)

  6、 配置“识别失败”场景,因为有些网站需要多次输入验证码(即使输入正确,也需要重新输入验证码)。此外,优采云

以0. 1%的错误概率连接到编码平台。因此,为了避免上述情况导致采集中断,我们需要配置“识别失败”场景,告诉优采云

在什么情况下验证码识别失败,以便再次进行自动识别直到识别正确为止。

  

  7、如果输入错误的验证码,页面上通常会有相应的提示。这时候点击选择提示告诉优采云

出现提示提示验证码识别失败。

  

  

  8、识别失败场景配置完成后,再配置成功识别场景。进入场景后,手动输入正确的验证码,然后点击“应用到网页并完成配置”。

  

  

  (完成验证码识别操作后,点击“处理”,如果验证码出现在分支的最右侧,点击并按住拖动到相应位置。)

  

  至此,“身份验证码”操作完成,其余操作请根据实际需要进行设置。图中示例仅在识别验证码后提取数据,然后可以运行本地采集进行验证和调试。第一次弹出验证码输入框时。点击勾选“自动识别验证码”。输入验证码后,点击“确定”,任务将自动运行。云采集这一步不需要操作,直接运行即可。当您没有点击勾选“自动识别验证码”时,每次出现此弹窗时都需要手动输入,且仅支持单机采集。点击“后

  (注:“身份验证码”默认选择Ajax,超时时间为5秒,用户可根据网站实际情况配置高级选项。如果网页加载速度较快,可以设置超时时间较短。不过建议不要改,特别是是否检查ajax,以免出错!)

  

  下图显示了本地采集

验证和识别情况。勾选“自动识别验证码”和“确认”后,本地收款过程中会自动识别验证码并消耗余额。请点击余额购买

  注意查看验证码包!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线