无规则采集器列表算法(如何快速找出并解决问题？如何更好与客服沟通？ )

优采云发布时间: 2021-09-21 13:07

　　无规则采集器列表算法(如何快速找出并解决问题？如何更好与客服沟通？

)

　　如果使用优采云配置规则时采集数据异常，如何快速发现并解决问题？如何更好地与客户服务部沟通

　　本教程将解释规则故障排除的基本思想和方法

　　一、手动执行规则

　　在制定采集规则后，我们最好手动执行规则，检查规则是否满足采集的要求

　　手动执行规则意味着什么？打开流程图界面，按照从上到下、从内到外的逻辑点击每个步骤（点击查看流程并执行逻辑教程），点击步骤后观察页面。如果它符合预期，就没有问题。如果不符合预期，则需要对其进行修改

　　1、按预期手动执行规则

　　特别说明：

　　a。单击[周期列表]时，最好选择项目1以外的项目，以防止周期仅对项目1有效

　　b。在[open web page]和[click element]之后，如果数据已经出现，但浏览器仍在循环

　　，按

　　强行停止加载，以便于下一步

　　示例：采集豆瓣图书列表数据。手动执行规则以顺利运行，并将采集添加到数据中。没问题

　　2、手动执行规则不符合预期。可能存在以下现象：

　　2.1、单击某个步骤后没有响应

　　理由①: XPath定位不准确。您需要修改定位XPath。单击以查看XPath教程

　　理由②: 多次修改此步骤会导致底层代码混乱。必须删除此步骤，然后重新执行

　　2.2、提取的数据不准确

　　它表现在数据重复、数据错位、数据遗漏等方面。在运行本地采集时，通常会发现不准确的数据提取，在获取一些数据后更容易找到

　　因此，我们将在下面运行local采集的二、中详细讨论它

　　二、run local采集

　　在本地启动任务采集. 观察任务的采集状态，然后分析并解决问题。以下是一些常见问题和解决方案的总结

　　1、手动执行规则有数据。启动本地采集系统后，系统会提示：[采集stopped]

　　理由①: 网页打开太快，但实际数据采集还不可用。您需要为[打开网页]之后的步骤设置[执行前等待]。有关详细信息，请参阅“执行前等待”教程

　　2、手动执行规则有数据，采集速度很慢，有些步骤等待时间很长

　　理由①: 网页本身打开得很慢，例如一些外来文件网站. 如果打开速度慢，数据也慢，那么就只能等待。如果打开速度慢，但数据显示速度快，则可以使用AJAX超时强制结束加载。有关详细信息，请参阅Ajax教程

　　理由②: 没有为Ajax网页设置Ajax超时。您需要在相应的步骤中设置Ajax超时。有关详细信息，请参阅Ajax教程

　　理由③: 流程中有太多中间层，并且有许多单击元素或在执行之前等待。规则可根据网页采集要求和加载条件进行优化

　　3、重复数据

　　3.1、[cycle-extract data]规则，在每页上重复采集第一个数据

　　理由①: 在循环的[extract data]步骤中，未检查当前循环中设置的[采集elements]，需要检查上限

　　理由②: 采集field未被选中[relative XPath]，您需要检查并正确写入它才能查看relative XPath教程

　　3.2、[循环-单击元素-提取数据]规则，重复单击每页上的第一个链接

　　理由①: 在[click element]步骤中，[click element set in the current cycle]未被选中，需要检查上限

　　3.3、重复采集某些页面

　　理由①: 翻页定位XPath存在问题，需要手动修改定位XPath。有关详细信息，请参阅XPath教程

　　4、数据错位

　　理由①: 字段的定位XPath存在问题，需要手动修改定位XPath。有关详细信息，请参见在无法提取字段时如何处理字段提取错位

　　5、数据遗漏（部分字段遗漏、部分循环项目遗漏、整页遗漏）

　　理由①: 未加载网页上的字段/循环项/翻页按钮。您需要设置执行前等待以加载它。有关详细信息，请参阅“执行前等待”教程

　　原因②: 字段/循环项/翻页的XPath定位不准确。您需要修改定位XPath，使其适用于所有类似的网页。有关详细信息，请参阅XPath教程

　　理由③: 网页上未设置页面滚动。在设置[页面滚动]之前，无法完全加载某些网页数据。有关详细信息，请参阅页面滚动教程

　　当我们的规则、手动执行和运行[local采集]都正常后，我们可以启动[cloud采集]。如果[local采集]中有数据，而[cloud采集]中没有数据，一般原因是什么

　　三、run[cloud采集]

　　1、web anti采集

　　@k481、IP密封的

　　原因：一些网站采取了极其严格的IP阻止措施（跳转到登录页面等）。云采集长时间使用一个节点后，采集该节点的IP被阻塞，数据无法正常采集传输

　　解决方案：使用代理IP将任务分配给多个节点，并使多个节点空闲，以避免在同一个云上和同一IP采集上执行任务@

　　@出现1.2、验证代码

　　原因：验证码将出现在某些网页的采集进程中。只有在正确输入验证码后，才能处理数据采集

　　解决方案：设置自动识别验证码；设置执行前等待以降低采集速度，细分任务并使用少量提取方法

　　2、cookie访问限制

　　原因：规则中使用了Cookie登录，可以正常调用本地缓存的Cookie采集. 云采集启动后，云采集使用云服务器节点，这是一个新的IP。没有登录cookie，在登录状态下无法打开要为采集的网页

　　解决方案：在规则中增加账号和密码的登录步骤。有关详细信息，请参见教程中需要登录的网页（包括登录时的验证码）

　　(★ 有些网站不支持多IP登录。对于此类网站规则，请选中[云采集不拆分任务]）

　　3、云问题-ECS带宽小

　　原因：云中带宽小，导致本地开启慢，云中网站开启时间长。一旦超时过期，它将不会打开网站或无法加载数据，从而跳过此步骤

　　解决方案：设置打开网址的超时时间或下一步之前的等待时间。您还可以将重试条件设置为在未正常打开时重试。有关详细信息，请参阅重试教程

　　4、规则发布-增量采集

　　原因：云采集有增量采集功能：根据URL判断是否为采集。在第一次采集之后，已经采集的后续URL将不再是采集。如果列表信息为采集，如果以后添加了新列表，但URL没有更改，优采云将跳过此URL@

　　解决方案：在k15时关闭增量@

　　四、快速故障排除提示

　　1、提取数据并添加页码

　　帮助我们快速找到数据采集开始出错的页面

　　2、提取数据并添加网址

　　当字段无法提取时，帮助我们快速检查网页的情况，是否是网页本身的问题（网址无效，没有这样的字段本身），还是优采云问题（无法正常打开网页，XPath定位不准确等）

　　3、提取数据并添加网页源代码

　　这在云采集中很常见，便于我们在云上查看采集任务的运行环境

0

2021-09-21

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

无规则采集器列表算法(如何快速找出并解决问题？如何更好与客服沟通？ )

0 个评论

发起人

AI时代内容工厂

无规则采集器列表算法(如何快速找出并解决问题？如何更好与客服沟通？ )

0 个评论

发起人

相关问题