云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)
优采云 发布时间: 2021-12-21 00:24云端内容采集(优采云采集过程中常出现的问题以及解决方法本教程)
优采云采集 过程中常见问题及解决方法
本教程主要讲如果您在使用优采云采集时遇到一些问题,如何快速找出错误、解决错误或如何理解错误,更好地与客服沟通。
优采云采集器主要是利用技术定位和模拟用户浏览网页的操作来采集数据。用户不需要了解网页架构、数据采集原理等技巧,通过优采云采集器就可以形成一个优采云可理解的循环采集流程。
如果出现采集模式不能满足需求的情况,后面有更详细的排查教程。
采集 过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题和云端问题。当采集异常时,请按照以下步骤进行排查和查找问题类型:
1、 再次手动执行规则:打开界面右上角的流程图,用鼠标点击流程图中的规则,从上到下,每次点击下一步,都会出现是相应的反应,没有反应的那一步就是问题。步。
当心:
1) 点击并提取循环中的元素,手动选择循环中除第一个以外的内容,防止循环失败,只点击提取循环中的第一个元素
2)所有的规则都是在每一步执行完之后再执行下一步。网页未完全加载,即浏览器上的圆形等待图标没有消失时,观察网页内容是否加载完毕。如果负载完全加载,您可以自行取消
加载,然后配置规则。
2、执行单机采集,在采集的结果中检查采集没有数据的项目。
注意:最好把当前的URL加入到规则中,这样就有没有采集到数据中的项目。您可以复制网址并在浏览器中打开它以检查原因并确定错误。
以下对可能出现的问题进行说明如下,供大家参考:
1、手动步骤无反应
有两种可能的现象:
1)步骤没有正常执行
原因:规则问题、采集器问题、定位模拟问题
解决方案:
您可以进行故障排除,删除此步骤,然后重新添加。如果仍然无法执行,则排除规则问题。你可以:
在浏览器中打开网页进行操作。如果某些滚动页面或点击页面在浏览器中可以执行,但在采集器中不能执行,则是采集器问题,原因是采集器嵌入式浏览器是Firefox浏览器。可能是后续版本内嵌浏览器的版本发生了变化,导致浏览器中可以实现的功能在采集器内嵌浏览器中无法执行。网页中的数据,智能采集翻页或滚动前的数据。
排除采集器问题和规则问题后,可以尝试在页面上重新添加步骤,布局与创建规则时相同。如果在这样的页面上可以执行但是只有部分页面不能执行,就是定位模拟的问题,这个问题在时间跨度大的网站中经常存在,原因是布局网站
如果采集器定位所需的XPath因变化而变化,请参考XPath章节修改规则或联系客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。
优采云采集器故障排除-图1
2)点击循环或者采集只出现在第一个内容,点击第二个内容时还是采集到第一个内容
原因:规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否被选中,然后单击当前循环中设置的元素。
如果还是没有勾选,可以: 如果循环中有其他循环,先参考问题1的*敏*感*词*去掉里面的内容,删除有问题的循环,重新设置。如果移除的规则不是自动的 重置需要手动重置。如果循环可以使用,则排除问题,如果不能,则是定位模拟问题。你可以:
在循环中查看提取数据的自定义数据字段,查看自定义定位元素方法,查看里面是否有相对Xpath路径,如果不存在,删除该字段,查看外部advanced中的use loop选项,并再次添加,再次尝试,如果有响应,问题解决,如果还是不行,可以:
参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。
优采云采集器故障排除-图2
2、单机采集无法采集数据
有4种可能的原因:
1)单机操作规则,数据采集前显示采集完成
这种现象分为3种情况
①打开网页后直接显示采集完成
原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,过一段时间加载优采云会跳过这一步,后续步骤认为内容尚未加载。没有数据,优采云结束任务,导致采集没有数据。
解决方法:增加网页的超时时间,或者等待下一步设置执行,让网页有足够的时间加载。
优采云采集器故障排除-图 3
优采云采集器故障排除-图4
②网页一直在加载
原因:网页问题,部分网页加载缓慢。我希望 采集 的数据不出现。
解决方法:如果当前步骤是打开网页,可以增加网页的超时时间。如果是点击元素的步骤,并且采集的数据已经加载完毕,可以在点击元素的步骤中设置ajax延迟。点击后,加载了新的数据,网页的URL并没有改变为ajax链接。
优采云采集器故障排除-图5
③网页没有进入采集页面
原因:问题经常出现在点击元素的步骤。当某些网页有ajax链接时,需要根据点击位置来判断是否需要设置。如果不设置,采集单机时总是卡在上一步,不会有采集的数据。网页异步加载时,如果不设置ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。
解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环到下一页,鼠标移动到元素上,这三步有ajax设置
2)单机操作规则无法正常执行
原因:规则问题或定位模拟问题
解决方案:
首先判断是否需要设置ajax以及是否设置正确,如果不是ajax问题,可以:
删除有问题的步骤并重新设置。如果问题解决了,就是规则问题。如果问题没有解决,就是定位模拟问题。你可以:
参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。
3)单机操作规则,第一页或第一页数据正常,后面无法执行
原因:规则问题-循环部分有问题
解决方法:参考第二个内容的手动执行。
4)单机操作规则,数据采集缺失或错误
这种现象可以分为5种情况:
①某些领域没有数据
原因:网页中的数据为空,模拟定位问题
解决方案:
检查没有字段的链接并使用浏览器打开它。如果确实没有字段,则没有问题。如果浏览器打开有内容,就是模拟定位问题。你可以:
参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。
②采集 数据个数不对
原因:规则问题-循环部分有问题
解决方法:参考第二个内容的手动执行
③采集 数据乱序,没有对应信息
原因:规则问题-提取步骤太多,网页加载时间过长,如果设置ajax忽略加载,可能会导致多次提取步骤出现一些错误,因为内容没有加载或者加载不完整。
解决方案:将规则分为两步。如果采集对网页数据进行评论,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,后续导出的数据会在excel和数据库中进行匹配处理。
④字段出现在不同的位置
原因:网页问题-Xpath更改
解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议询问客户
服务说明网站 URL及错误原因,以便客服提供解决方案。
⑤数据重复
原因:网页问题-Xpath定位问题,问题主要出现在翻页时,比如只有一两页循环,或者最后一页的下一页按钮仍然可以点击。
解决方法:参考Xpath章节修改网页Xpath或咨询客服。建议向客服说明网站 URL及错误原因,以便客服提供解决方案。
3、单机采集正常,云端采集无数据
这种现象有4种情况:
1)网页问题-阻止IP的原因
原因:大部分网站优采云有IP封锁措施可以解决,极少数网站采取极其严格的IP封锁措施,会导致云采集 采集没有数据。
解决方案:
如果是独立的采集,可以使用代理IP功能。具体操作请参考代理IP教程。
如果是云端采集,可以为任务分配多个节点,让多个节点空闲,避免任务在同一个云端,同一个IP采集。
2)云问题-云服务器带宽小
原因:云的带宽小,导致网站的本地打开在云中打开速度较慢。一旦超时,将不会打开网站或无法加载数据,因此跳过此步骤。
解决方法:将打开URL的超时时间或下一步前的等待时间设置得更长一些。
3)规则问题-增量采集
原因:规则设置增量采集,增量采集根据URL判断采集是否通过,部分网页使用增量采集会导致跳过增量判断。这一页。
解决方法:关闭增量采集。
4)规则问题-禁止浏览器加载图片和云采集不要拆分任务
原因:很少有网页不能勾选禁止浏览器加载图片和云采集不拆分任务。解决方法:取消勾选相关选项。
如有更多问题,欢迎您在官网或客服反馈。谢谢您的支持。
相关 采集 教程:
天猫商品信息采集
美团商户信息采集
赶集招聘信息采集
优采云——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以使用:无需技术背景,即可上网采集。过程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。
2、功能强大,任意一个网站都可以:点击、登录、翻页、识别验证码、瀑布流、Ajax脚本和异步加载数据页面,都可以通过简单的设置来设置采集。
3、Cloud采集,可以关闭。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封、网络中断。
4、功能免费+增值服务,可根据需要选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。