无规则采集器列表算法(如何快速找出并解决问题?如何更好与客服沟通? )

优采云 发布时间: 2021-09-21 13:07

  无规则采集器列表算法(如何快速找出并解决问题?如何更好与客服沟通?

)

  如果使用优采云配置规则时采集数据异常,如何快速发现并解决问题?如何更好地与客户服务部沟通

  本教程将解释规则故障排除的基本思想和方法

  一、手动执行规则

  在制定采集规则后,我们最好手动执行规则,检查规则是否满足采集的要求

  手动执行规则意味着什么?打开流程图界面,按照从上到下、从内到外的逻辑点击每个步骤(点击查看流程并执行逻辑教程),点击步骤后观察页面。如果它符合预期,就没有问题。如果不符合预期,则需要对其进行修改

  1、按预期手动执行规则

  特别说明:

  a。单击[周期列表]时,最好选择项目1以外的项目,以防止周期仅对项目1有效

  b。在[open web page]和[click element]之后,如果数据已经出现,但浏览器仍在循环

  

  ,按

  

  强行停止加载,以便于下一步

  

  示例:采集豆瓣图书列表数据。手动执行规则以顺利运行,并将采集添加到数据中。没问题

  

  2、手动执行规则不符合预期。可能存在以下现象:

  2.1、单击某个步骤后没有响应

  理由①: XPath定位不准确。您需要修改定位XPath。单击以查看XPath教程

  理由②: 多次修改此步骤会导致底层代码混乱。必须删除此步骤,然后重新执行

  2.2、提取的数据不准确

  它表现在数据重复、数据错位、数据遗漏等方面。在运行本地采集时,通常会发现不准确的数据提取,在获取一些数据后更容易找到

  因此,我们将在下面运行local采集的二、中详细讨论它

  二、run local采集

  在本地启动任务采集. 观察任务的采集状态,然后分析并解决问题。以下是一些常见问题和解决方案的总结

  1、手动执行规则有数据。启动本地采集系统后,系统会提示:[采集stopped]

  

  理由①: 网页打开太快,但实际数据采集还不可用。您需要为[打开网页]之后的步骤设置[执行前等待]。有关详细信息,请参阅“执行前等待”教程

  2、手动执行规则有数据,采集速度很慢,有些步骤等待时间很长

  理由①: 网页本身打开得很慢,例如一些外来文件网站. 如果打开速度慢,数据也慢,那么就只能等待。如果打开速度慢,但数据显示速度快,则可以使用AJAX超时强制结束加载。有关详细信息,请参阅Ajax教程

  理由②: 没有为Ajax网页设置Ajax超时。您需要在相应的步骤中设置Ajax超时。有关详细信息,请参阅Ajax教程

  理由③: 流程中有太多中间层,并且有许多单击元素或在执行之前等待。规则可根据网页采集要求和加载条件进行优化

  3、重复数据

  3.1、[cycle-extract data]规则,在每页上重复采集第一个数据

  理由①: 在循环的[extract data]步骤中,未检查当前循环中设置的[采集elements],需要检查上限

  理由②: 采集field未被选中[relative XPath],您需要检查并正确写入它才能查看relative XPath教程

  3.2、[循环-单击元素-提取数据]规则,重复单击每页上的第一个链接

  理由①: 在[click element]步骤中,[click element set in the current cycle]未被选中,需要检查上限

  3.3、重复采集某些页面

  理由①: 翻页定位XPath存在问题,需要手动修改定位XPath。有关详细信息,请参阅XPath教程

  4、数据错位

  理由①: 字段的定位XPath存在问题,需要手动修改定位XPath。有关详细信息,请参见在无法提取字段时如何处理字段提取错位

  5、数据遗漏(部分字段遗漏、部分循环项目遗漏、整页遗漏)

  理由①: 未加载网页上的字段/循环项/翻页按钮。您需要设置执行前等待以加载它。有关详细信息,请参阅“执行前等待”教程

  原因②: 字段/循环项/翻页的XPath定位不准确。您需要修改定位XPath,使其适用于所有类似的网页。有关详细信息,请参阅XPath教程

  理由③: 网页上未设置页面滚动。在设置[页面滚动]之前,无法完全加载某些网页数据。有关详细信息,请参阅页面滚动教程

  当我们的规则、手动执行和运行[local采集]都正常后,我们可以启动[cloud采集]。如果[local采集]中有数据,而[cloud采集]中没有数据,一般原因是什么

  三、run[cloud采集]

  1、web anti采集

  @k481、IP密封的

  原因:一些网站采取了极其严格的IP阻止措施(跳转到登录页面等)。云采集长时间使用一个节点后,采集该节点的IP被阻塞,数据无法正常采集传输

  解决方案:使用代理IP将任务分配给多个节点,并使多个节点空闲,以避免在同一个云上和同一IP采集上执行任务@

  @出现1.2、验证代码

  原因:验证码将出现在某些网页的采集进程中。只有在正确输入验证码后,才能处理数据采集

  解决方案:设置自动识别验证码;设置执行前等待以降低采集速度,细分任务并使用少量提取方法

  2、cookie访问限制

  原因:规则中使用了Cookie登录,可以正常调用本地缓存的Cookie采集. 云采集启动后,云采集使用云服务器节点,这是一个新的IP。没有登录cookie,在登录状态下无法打开要为采集的网页

  解决方案:在规则中增加账号和密码的登录步骤。有关详细信息,请参见教程中需要登录的网页(包括登录时的验证码)

  (★ 有些网站不支持多IP登录。对于此类网站规则,请选中[云采集不拆分任务])

  

  3、云问题-ECS带宽小

  原因:云中带宽小,导致本地开启慢,云中网站开启时间长。一旦超时过期,它将不会打开网站或无法加载数据,从而跳过此步骤

  解决方案:设置打开网址的超时时间或下一步之前的等待时间。您还可以将重试条件设置为在未正常打开时重试。有关详细信息,请参阅重试教程

  4、规则发布-增量采集

  原因:云采集有增量采集功能:根据URL判断是否为采集。在第一次采集之后,已经采集的后续URL将不再是采集。如果列表信息为采集,如果以后添加了新列表,但URL没有更改,优采云将跳过此URL@

  解决方案:在k15时关闭增量@

  

  四、快速故障排除提示

  1、提取数据并添加页码

  帮助我们快速找到数据采集开始出错的页面

  2、提取数据并添加网址

  当字段无法提取时,帮助我们快速检查网页的情况,是否是网页本身的问题(网址无效,没有这样的字段本身),还是优采云问题(无法正常打开网页,XPath定位不准确等)

  3、提取数据并添加网页源代码

  这在云采集中很常见,便于我们在云上查看采集任务的运行环境

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线