You Caiyun-基本故障排除教程

优采云 发布时间: 2020-08-06 10:14

  优采云采集和故障排除教程

  本教程主要讨论如何快速发现错误,解决错误或如何理解错误,以及在使用优采云时遇到问题时如何与客户服务更好地沟通.

  优采云采集器主要使用技术来定位和模拟用户浏览网页以采集数据的操作. 用户不需要了解网页的结构,数据采集原理和其他技能,通过优采云采集器就可以形成优采云的获取过程,该过程可以理解并且可以循环工作.

  如果存在采集模式不符合需要的情况,则在故障排除之后将有更详细的教程

  采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 如果采集不正常,请按照以下步骤进行操作. 解决并查找问题类型:

  (1)再次手动执行规则: 打开界面右上角的流程图,

  

  使用鼠标从上至下单击流程图中的规则,每次单击下一步时,都会有相应的响应,而没有反应的步骤就是发生问题的步骤.

  注意:

  a. 单击并提取循环中的元素以手动选择循环中第一个元素以外的内容,以防止循环失败,仅单击以提取循环中的第一个元素

  b. 所有规则在下一步执行之后执行,然后再进行下一步,则网页未完全加载,即当浏览器上的圆圈等待图标未消失时,请观察网页内容是否已完全加载. 已完全加载,您可以自行取消加载,然后配置规则.

  (2)执行独立采集并检查采集结果中尚未采集数据的项目.

  注意: 最好将当前URL添加到规则中,以便某些项目尚未采集数据. 您可以复制URL并在浏览器中打开它,以检查原因并确定错误.

  以下可能出现的问题的描述如下,供您参考:

  (1)手动执行步骤时没有响应

  有两种可能的现象:

  1. 步骤无法正常执行

  原因: 规则问题,采集器问题,定位模拟问题

  解决方案:

  您可以检查,删除该步骤,然后再次添加它,如果仍然无法执行,则排除了规则问题,您可以:

  在浏览器中打开网页进行操作. 如果可以在浏览器中但不能在采集器中执行某些滚动或单击翻页的操作,则可能是采集器问题,因为采集器中嵌入的浏览器是Firefox浏览器,可能是嵌入式浏览器的版本已更改. 后续版本,导致可以在浏览器中实现的功能无法在采集器中嵌入的浏览器中执行. 这种类型的网页中的数据将被智能地采集并翻页或滚动以前的数据.

  排除采集器问题和规则问题后,可以尝试以与制定规则时相同的布局在页面上重新添加步骤. 如果它可以在这样的页面上执行,但是仅页面的一部分不能执行,则这是定位模拟问题. 这个问题通常存在于时间跨度较大的网站上. 原因是网站的布局已更改,这导致采集器位置所需的XPath发生了更改. 请参考XPath章节以修改规则或咨询客户服务. 建议向客户服务说明网站URL和错误. 原因是,方便客户服务提供解决方案.

  

  2. 循环中的单击或捕获仅发生在第一个内容中,而单击第二个内容仍捕获第一个内容

  原因: 规则问题,定位模拟问题

  解决方案:

  检查循环中的第一项是否选中并单击当前循环中设置的元素

  

  如果仍然无法检查,则可以:

  如果该循环中还有其他循环,请首先参考问题1的*敏*感*词*以删除其中的内容,删除有问题的循环,然后再次进行重置. 如果删除的规则没有自动重置,则需要手动重置. 如果循环正常,请使用它排除规则问题. 如果没有,那就是定位仿真问题. 您可以:

  检查自定义数据字段以在循环中提取数据,检查自定义定位元素方法,并查看其中是否存在相对的Xpath路径,如果没有,请删除该字段,并在外部高级选项中检查use循环,然后重新添加,然后重试. 如果有回应,则问题得到解决,如果仍然无法解决,您可以:

  请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

  

  (2)单机采集无法采集数据

  有四个可能的原因:

  1. 单机操作规则,将在采集数据之前显示数据.

  此现象分为3种情况

  A. 打开网页后,将直接显示采集已完成

  原因: 网页问题. 第一个网页加载太慢. 优采云会等一会儿. 如果一段时间后仍在加载,则彩云将跳过此步骤. 后续步骤认为未加载内容. 收到数据后,优采云结束了任务,因此没有数据采集.

  解决方案: 延长网页的超时时间,或者等待设置下一步执行,以便网页有足够的时间加载.

  B. 该网页始终处于加载状态

  原因: 网页问题,某些网页加载缓慢. 您想要采集的数据不会出现.

  解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已加载要采集的数据,则可以在单击元素的步骤中设置ajax延迟. 单击后,将加载新数据,并且网页URL不会更改为ajax链接.

  C. 该网页未进入采集页面

  原因: 此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据. 异步加载网页时,如果未设置ajax延迟,通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法提取任何数据.

  解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置

  2. 独立操作规则无法正常执行

  原因: 规则问题或定位模拟问题

  解决方案:

  首先确定是否需要设置ajax,以及是否设置正确,如果不是ajax问题,则可以:

  删除有问题的步骤,然后重新设置. 如果问题解决了,那就是规则问题. 如果问题没有解决,那就是定位仿真问题. 您可以:

  请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

  3. 单机操作规则,首页或首页数据正常,以后不能执行

  原因: 规则问题-循环部分有问题

  解决方案: 请参阅第二内容的手动执行.

  4. 单机操作规则,数据采集丢失或错误

  此现象有5种情况:

  A. 有些字段没有数据

  原因: 网页中的数据为空,是模拟定位问题

  解决方案:

  检查没有字段的链接,然后使用浏览器打开它们. 如果确实没有字段,就没有问题. 如果浏览器打开内容,这是一个模拟定位问题. 您可以:

  请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

  

  B. 采集的数据量不正确

  原因: 规则问题-循环部分有问题

  解决方案: 请参阅第二内容的手动执行

  

  C. 采集的数据混乱,没有相应的信息

  原因: 规则问题-太多的提取步骤,太长的网页加载时间,如果将ajax设置为忽略加载,则可能会在多个提取步骤中引起一些错误,因为未加载内容或加载不完整.

  解决方案: 将规则分为两个步骤. 如果要采集评论网页数据,第一步是采集当前页面信息和评论页面URL,第二步是循环URL采集评论数据,然后将数据导出到Excel中,在数据库中进行匹配处理

  D. 字段出现在不同的地方

  原因: 网页问题-Xpath更改

  解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.

  E. 数据重复

  原因: 网页问题-Xpath定位问题. 问题主要发生在翻页时,例如只有一个或两个页面循环,或者仍然可以单击最后一页上的下一页按钮.

  解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.

  (3)独立集合是正常的,但是云集合没有数据

  这种现象有四种类型:

  1. 阻止IP的网页问题原因

  原因: 大多数具有IP阻止措施的网站都可以由优采云解决. 极少数网站采用非常严格的IP阻止措施,这将导致云采集无法采集数据.

  解决方案:

  如果它是独立集合,则可以使用代理IP功能. 有关具体操作,请参见代理IP教程.

  如果是云采集,则可以将其分配给任务的多个节点,并且多个节点可以处于空闲状态,以避免在同一云和同一IP上采集任务.

  2. 云问题-云服务器带宽小

  原因: 云的带宽很小,这使得本地慢速打开网站的时间更长,无法在云中打开. 超时到期后,将无法打开网站或无法加载数据,因此将跳过此步骤.

  解决方案: 设置打开URL的超时时间或下一步之前的等待时间更长.

  3. 规则问题增量采集

  原因: 在规则中设置了增量采集. 根据URL判断增量采集. 在某些网页上使用增量采集会导致增量判断错误,从而跳过网页.

  解决方案: 关闭增量采集.

  4. 规则问题浏览器禁止加载图片,并且云采集不会拆分任务

  原因: 只有很少的网页无法检查以禁止浏览器在不分割任务的情况下加载图像和云集合

  解决方案: 取消选中相关选项.

  如果还有其他问题,请在官方网站或客户服务中提供反馈. 谢谢您的支持.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线