云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)

优采云 发布时间: 2022-03-27 23:24

  云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)

  优采云采集过程中常见问题及解决方法

  本教程主要讲如果您在使用优采云采集时遇到一些问题,如何快速找出错误,解决错误或如何理解错误,以及与客服沟通的更好方法。

  优采云采集器主要通过技术定位和模拟用户对网页的浏览操作来采集数据。用户无需了解网页架构、数据采集原理等技能。采集器 可以形成一个 优采云 可以理解并且可以循环工作的采集 进程。

  如果出现采集模式不符合要求的情况,排查后有更详细的教程。

  采集过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、云端问题。当采集出现异常时,请按照以下步骤排查错误,查找问题类型:

  1、 手动执行规则:打开界面右上角的流程图,用鼠标点击流程图中的规则,从上到下,每次点击下一步,都会有对应的响应,没有响应的步骤是一个问题。步。

  当心:

  1)点击提取循环中的元素手动选择循环中第一个以外的内容,防止循环失效,只点击提取循环中的第一个元素

  2)所有规则在每一步之后执行,然后再执行下一步。网页未完全加载,即浏览器上的圆圈等待图标消失时,观察网页内容是否已完全加载。如果满载可以自行取消

  加载,然后配置规则。

  2、执行单机采集,查看采集的结果中没有收到采集数据的项目。

  注意:最好将当前的URL添加到规则中,这样如果数据中有不是采集的项,可以复制URL在浏览器中打开查看原因并确定错误。

  可能出现的症状描述如下,供您参考:

  1、对手动步骤没有响应

  有两种可能的现象:

  1)步骤未正确执行

  原因:规则问题、采集器问题、定位模拟问题

  解决方案:

  您可以执行故障排除,删除此步骤,然后重新添加。如果仍然无法执行,则排除规则问题。你可以:

  在浏览器中打开网页进行操作,如果在浏览器中可以执行一些滚动或点击翻页,而在采集器中却不能执行,那就是采集器的问题,原因是采集器 内置浏览器是火狐,可能是内置的浏览器版本在后续版本中发生了变化,导致浏览器中可以实现的功能无法在采集器中执行@> 内置浏览器。此类网页中的数据,智能采集翻页或滚动之前的数据。

  排除采集器问题和规则问题后,可以尝试在页面上重新添加步骤,布局与制定规则时相同。如果可以在这样的页面上执行,但在某些页面上不能执行,那就是定位模拟。这个问题在时间跨度较大的网站中经常存在,因为网站的布局

  如果发生变化,采集器 定位所需的 XPath 将发生变化。请参考XPath章节修改规则或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  

  优采云采集器故障排除 - 图 1

  2)循环中的点击或采集只有在点击第一个内容时才会发生,第二个内容还是采集到第一个内容

  原因:规则问题,定位模拟问题

  解决方案:

  检查循环中的第一项是否勾选点击当前循环中设置的元素

  如果勾选还是不能,可以:如果循环中还有其他循环,先参考问题1的*敏*感*词*去掉里面的内容,删除有问题的循环,再重新设置,如果去掉的规则有不自动复位需要手动复位。如果可以使用循环,则排除问题。如果不是,那就是定位模拟的问题。你可以:

  勾选循环中提取数据的自定义数据字段,勾选自定义定位元素方法,看里面是否有相对的Xpath路径,如果没有,删除该字段,勾选外部高级选项中的使用循环,添加再次,再次尝试,如果有反应,问题就解决了,如果还是不行,可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  

  优采云采集器故障排除 - 图 2

  2、单机采集无法采集数据

  有4个可能的原因:

  1)单机操作规则,数据采集前会显示采集Complete

  这种现象分为3种情况

  ①打开网页后会直接显示采集完成

  原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,如果过了一定时间仍然加载,优采云会跳过这一步,后续步骤认为内容尚未加载。如果没有数据,优采云 将结束任务,导致 采集 没有数据。

  解决方法:增加网页的超时时间,或者在设置下一步执行之前等待,让网页有足够的时间加载。

  

  优采云采集器故障排除 - 图 3

  

  优采云采集器故障排除 - 图 4

  ②网页一直在加载

  原因:网页问题,有些网页加载很慢。采集 的所需数据未出现。

  解决方法:如果当前步骤是打开网页,可以延长网页的超时时间。如果是点击元素步骤,并且要加载采集的数据,可以在点击元素步骤中设置ajax延迟。点击后,新数据加载完毕,网页URL不变,是ajax链接。

  

  优采云采集器故障排除 - 图 5

  ③网页没有进入采集页面

  原因:这个问题经常出现在点击元素步骤。当某些网页收录ajax链接时,根据点击位置来判断是否需要设置。如果不设置,单机采集,采集无数据时,总是卡在上一步。网页异步加载时,如果不设置Ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。

  解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环下一页,将鼠标移到元素上,这三步都有ajax设置

  2)单机运行规则无法正常执行

  原因:规则问题或定位模拟问题

  解决方案:

  首先判断ajax是否需要设置,是否设置正确,如果不是ajax问题,可以:

  删除问题步骤并重新设置。如果问题解决了,那就是规则问题。如果问题没有解决,那就是定位仿真问题。你可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  3)单机操作规则,第一页或第一页数据正常,后面不能执行

  原因:规则问题 - 循环部分出现问题

  解决方法:参考第二个内容的手动执行。

  4)单机操作规则,数据采集缺失或错误

  这种现象分为5种情况:

  ①部分字段没有数据

  原因:网页中的数据为空,模拟定位问题

  解决方案:

  查看没有字段的链接并使用浏览器打开它们。如果没有字段,则没有问题。如果浏览器打开内容,这是一个模拟定位问题。你可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  ②采集数据个数不对

  原因:规则问题 - 循环部分出现问题

  解决方法:参考手动执行第二个内容

  ③采集数据乱七八糟,没有对应的信息

  原因:规则问题——提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会由于内容未加载或加载不完整而导致部分提取步骤多的错误。

  解决方案:将规则分为两个步骤。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,和然后将数据导出到excel和数据库中进行匹配处理。

  ④ 字段出现在不同位置

  原因:网页问题 - Xpath 更改

  解决方法:参考Xpath章节修改网页的Xpath或咨询客服。

  服务描述网站URL及错误原因,以便客服给出解决方案。

  ⑤数据重复

  原因:网页问题——Xpath定位问题,问题主要出现在翻页时,比如只循环一两页,或者最后一页的下一页按钮仍然可以点击。

  解决方法:参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址和错误原因,以便客服给出解决方案。

  3、独立采集普通,云采集无数据

  这种现象分为4种情况:

  1)网页问题 - IP 阻塞的原因

  原因:大部分网站优采云有IP屏蔽措施都可以解决,很少有网站采取极其严格的IP屏蔽措施,会导致云采集采集@ > 无可用数据。

  解决方案:

  如果是单机采集,可以使用代理IP功能。详见代理IP教程。

  如果是云采集,可以为任务分配到多个节点,可以让多个节点空闲,避免同一个云采集同IP上的任务。

  2)云问题-云服务器带宽小

  原因:云端带宽小,导致本地网站打开慢,在云端打开时间较长。一旦超时,将无法打开网站或无法加载数据,导致跳过此步骤。

  解决方法:将打开URL的超时时间或下次执行前的等待时间设置长一些。

  3)规则问题 - 增量采集

  原因:规则设置了增量采集,增量采集根据URL判断采集是否已经通过。部分网页使用增量采集,会导致增量判断错误,跳过。这页纸。

  解决方法:关闭增量采集。

  4)规则问题-禁止浏览器加载图片和云采集不要拆分任务

  原因:很少有网页不能勾选禁止浏览器加载图片和云采集不要拆分任务解决方法:取消勾选相关选项。

  如有更多问题,请在官网或客服反馈,感谢您的支持。

  相关 采集 教程:

  天猫商品信息采集

  美团商业资讯采集

  市场招聘信息采集

  优采云——70万用户选择的网页数据采集器。

  1、操作简单,任何人都可以使用:无需技术背景,只需要互联网采集。完成流程可视化,点击鼠标完成操作,2分钟快速上手。

  2、功能强大,任意网站可选:点击、登录、翻页、身份验证码、瀑布流、Ajax脚本异步加载数据,都可以通过简单的设置进行设置< @采集。

  3、云采集,你也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。

  4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线