解决办法:优采云采集过程中常出现的问题以及解决方法

优采云 发布时间: 2022-11-08 05:37

  解决办法:优采云采集过程中常出现的问题以及解决方法

  《优采云采集常见问题及解决办法》为会员分享,可在线阅读。更多相关《优采云采集常见问题及解决办法》(12页珍藏版)”请在人人图书馆在线搜索。

  1、优采云采集使用过程中的常见问题及解决方法本教程主要讲讲在使用优采云采集过程中遇到一些问题如何快速找出Bugs,如何修复错误或如何理解错误,更好地与客户服务沟通。优采云采集器主要通过技术定位和模拟用户对网页的浏览操作来采集数据。用户无需了解网页架构、数据采集原理等技能。采集器 可以形成一个 优采云 可以理解并且可以循环工作的采集 进程。如果出现采集模式不符合要求的情况,排查后有更详细的教程。采集 过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、云端问题。当采集出现异常时,请按照以下流程排查错误并查找问题类型:

  2、运行规则一次:打开界面右上角的流程图,用鼠标点击流程图中的规则,从上到下,每次点击下一步都会有相应的响应,没有反应的步骤是发生问题的步骤。注意点: 1 1)点击提取循环中的元素,手动选择循环中第一个以外的内容,防止循环失效,只点击提取循环中的第一个元素 2 2)所有规则都是每一步执行完后执行下一步,网页未满载,即浏览器上的圆圈等待图标消失时,观察网页内容是否满载。如果是满载,可以自行取消加载,然后配置规则。2 2。单独执行采集操作,检查采集的结果中没有采集数据的项。注意:最好将当前的URL添加到规则中,这样如果数据中有不是采集的项,可以复制URL在浏览器中打开查看原因并确定错误。可能会出现以下问题

  3. 问题现象描述如下,供大家参考: 1 1. 手动执行步骤没有反应可能有两种现象: 1 1) 步骤不能正常执行的原因:规则问题, 采集器 问题,定位模拟问题的解决方法:可以勾选,删除这一步,重新添加。如果仍然无法执行,则排除规则问题。您可以:在浏览器中打开页面进行操作,如果在浏览器中进行一些滚动或点击翻页的操作。如果在采集器中执行但不能执行,则为采集器的问题。原因是采集器的嵌入式浏览器是火狐浏览器。可能是在后续版本中出现了嵌入式浏览器版本。变化,导致可以在浏览器中实现的功能在采集器嵌入式浏览器中无法执行,该类网页中的数据,智能采集翻页或滚动前的数据。排除 采集器 问题和规则问题后,您可以尝试使用

  4.在相同布局的页面上重新添加步骤。如果可以在这样的一个页面上执行,但不能只在某些页面上执行,那就是定位模拟问题。这个问题在时间跨度较大的网站中经常存在。原因是 网站 的布局发生变化,导致 采集器 定位所需的 XPathXPath 发生变化。请参考XPathXPath章节修改规则或咨询客服。建议向客服说明网站 URL 及错误原因。客服给出解决方案,每个页面还展示了优惠券页面的列表。滇老杯姚小神计划mstmst严神囚乔平景SS 3 3张醉年造型199199小时个人指挥官优采云采集器疑难解答--图1 12 2)点击或<

  

  5. 环中第一项是否勾选,点击当前回路中的元素集合称为回路”|点击当前谐波回路中的元素集合如果勾选了还是不行,可以: 如果loop Cycle中还有其他元素,先参考问题1 1的*敏*感*词*把里面的内容去掉,把有问题的循环删掉,再重新设置,如果去掉的规则没有自动重置,需要重新设置不,是定位模拟题,可以:20eaA.eaA.姬打ftft盖心号vv寺夏出9 9哼寻医学宫和uriiE?uriiE?中间去孙子nn觎米iwc*rr怎么进去iwc*: ?mi?miyuWW TfrTfrr r*1*1 B9 JbJb4 4 PiPi ”!35Jt!35JtC 查看循环中提取数据的自定义

  6.在data字段中,查看自定义定位元素方法,看里面是否有相对的XpathXpath路径。如果没有,请删除该字段,检查外部高级选项中的使用循环,然后重新添加。如果有响应再试一次,如果问题解决了,如果还是不行,您可以:参考XpathXpath章节修改网页的XpathXpath或者咨询客服。建议向客服说明网站网址和错误原因,以便客服给出解决方案。优采云采集器Troubleshooting- -图2 22 2.单机采集采集不到数据的可能原因有4个: 1 1)单机运行规则,数据会是在采集数据之前显示 采集 这种现象的完成分为3 3 种情况。打开网页后会直接显示采集完成原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,超过Still loading有一段时间优采云就

  7.这一步会被跳过,后面的步骤会认为内容还没有加载,无法采集数据。优采云 将结束任务,导致 采集 没有数据。AAAAAA!5!5(L(LI- f-1=1=Chong Phithit YujiaiMskiMf.fisiMskiMf.fis idle ZguifMiwn6QnriYfemi4ipAgZguifMiwn6QnriYfemi4ipAg 1L1MnM1L1MnMarlifarlif0 .HH 寻呼训练计断电解决方法:增加网页超时时间,或等待下一次之前步骤设置为执行,使网页有足够长的时间加载。优采云采集器Troubleshooting- -图3 3优采云采集器 Troubleshooting- -图4 4 网页已被

  8.在加载状态原因:网页问题,部分网页加载会很慢。采集 的所需数据未出现。5151 传6*1*1 原理: - 底3H 哥OO - 帝武哥死了 TT 是光帝的心下一年洞:-=RT 左下给宗心夏里 R-=RTy 我是十环狂吐!吴円:第二次买I?I?st米调直托再*st米调直托再*解决:如果当前步骤是打开网页步骤,可以延长网页的超时时间。如果是点击元素步骤,并且要加载采集的数据,可以在点击元素步骤中设置ajaxajax延迟。点击后,加载新数据,网页URL没有变化,是ajaxajax链接,优采云采集器疑难解答--图5 5 页面没有进入采集 页面原因:这个问题经常出现在点击元素步骤。一些网页收录 ajaxaj

  9、使用斧头链接时,根据点击位置判断是否需要设置。如果不设置,单机采集,采集无数据时,总是卡在上一步。网页异步加载时,如果不设置ajaxajax延迟,一般会导致操作无法正确执行,导致规则无法进行下一步,数据提取不出来。解决方法:在相应的步骤中设置ajaxajax延迟,一般为2-3S2-3S,如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环下一页,将鼠标移到元素上,这三步都有ajaxajax设置。2)单机运行规则无法正常执行原因:

  10.xajax是否需要设置,是否设置正确,如果不是ajaxajax问题,可以:删除问题步骤重新设置,如果问题解决了,就是规则问题,如果问题是没解决,是定位模拟问题,你是的:参考XpathXpath章节修改网页XpathXpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。3 3) 单机运行规则,首页或首页数据正常,以下无法执行原因:规则问题--循环部分有问题。解决方法:参考第二个内容的手动执行。4 4) 单机操作规则,数据采集缺失或错误,

  

  11.解决方法:勾选无字段链接,用浏览器打开。如果没有字段,则没有问题。如果浏览器中有内容,则为模拟定位问题。可以参考XpathXpath章节修改或查阅网页的XpathXpath。客服,建议向客服说明网站网址和错误原因,以便客服给出解决方案。采集数据条数不对原因:规则问题--循环部分有问题解决方法:参考第二个内容手动执行采集数据乱码,没有对应信息原因:规则问题——提取步骤太多,网页加载时间太长。如果设置 ajaxajax 忽略加载,由于内容未加载或加载不完整,可能会导致多个提取步骤中的一些错误。解决方案:将规则分为两个步骤。如果采集评论网页数据,第一步是使用

  12.设置当前页面信息和评论页面的URL URL。第二步,循环URLURL采集评论数据,然后将导出的数据在excel和数据库中进行匹配处理。字段出现位置不同原因:网页问题-Xpath-Xpath更改解决方法:参考XpathXpath章节修改网页XpathXpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。数据重复原因:网页问题-Xpath-Xpath定位问题,问题主要出现在翻页时,比如只有一两页循环,或者最后一页的下一页按钮还是可以点击。解决方案:

  13.客服说明网站网址及错误原因,以便客服给出解决方案。3 3.单机采集正常,云采集没有数据这种现象分为4种4种情况:1 1)网页问题--IPIP阻塞原因:大部分网站有封IPIP的措施优采云可以解决,但是很少有网站采取极其严格的IPIP封堵措施,会导致云采集采集收不到数据。解决方法:如果是单机采集,可以使用代理IPIP功能。有关详细信息,请参阅代理 IPIP 教程。如果是云采集,可以将任务分配给多个节点,让多个节点空闲,避免任务在同一个云,同一个IPIP采集。

  14. 由于无法加载数据,请跳过此步骤。解决方法:将打开URL的超时时间或下次执行前的等待时间设置长一些。3 3) 规则问题 - - 增量采集 原因:规则设置了增量采集,增量采集根据URL判断是否通过采集 URL,有些网页使用增量采集会导致增量错误跳过页面。解决方法:关闭增量采集。4 4) 规则问题 - - 禁止浏览器加载图片和云采集不要拆分任务原因:很少有网页不能勾选禁止浏览器加载图片和云采集不要拆分任务解决方法:取消勾选相关选项。如果还有更多问题,请在官网或客服反馈,感谢您的支持。相关采集教程:天猫商品信息米集美团商户信息采集营销招聘信息采集优采云7070万用户选择的*敏*感*词*网络数据采集器。

  15. 1 1. 操作简单,任何人都可以使用:不需要技术背景,只要能上网采集即可。流程完成可视化,点击鼠标完成操作,22分钟即可快速上手。2 2. 功能强大,任何网站都可以使用:点击、登录、翻页、识别验证码、瀑布流、AjaxAjax脚本异步加载数据,都可以通过简单的设置采集来完成。3 3. 云采集,也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*724*7不间断运行,不用担心IPIP被封,网络中断。4 4.功能免费++增值服务,可以按需选择。免费版具有满足用户基本采集需求的所有功能。同时,设置了一些增值服务(如私有云),以满足高端付费企业用户的需求。纵观万里长城内外,唯有芒芒;山舞中的银蛇,原本的蜡像,想要和天神一较高下。在阳光明媚的日子里,看着这件红色的连衣裙,显得格外妖娆。国之美,引无数英雄下跪。可怜秦汉汉武,文风稍失;祖宗,少了一点风骚。一代骄子,成吉思汗,雄鹰。他们都走了,浪漫人物的数量,

  解决方案:一种物联网数据采集器动态分发方法及系统技术方案

  本发明专利技术提供了一种物联网数据采集器动态分发的方法和系统,搜索所有终端指标,根据终端和数据源对终端指标进行分组,得到指标组列表;获取数据源指标组;根据数据源指定的分配算法,将数据源指标组列表中的指标分配给搜索到的物联网网关,得到每个网关需要执行的采集任务列表;根据采集任务查找是否有初始化的采集executor执行环境,查找是否有本地缓存​​的采集执行程序文件,最后实例化采集器根据采集任务和开始,进行data采集,转换成统一的结构,通过网关上传到物联网平台。通过本发明专利技术,整体降低了data采集系统的部署和维护难度,提高了系统的可扩展性,提高了系统数据采集的稳定性和可靠性得到保证,提高了系统对采集的支持能力。采集 故障转移的效率。屏障转移的效率。屏障转移的效率。提高了系统的可扩展性,保证了系统数据采集的稳定性和可靠性,提高了系统对采集的支持能力。采集 故障转移的效率。屏障转移的效率。屏障转移的效率。提高了系统的可扩展性,保证了系统数据采集的稳定性和可靠性,提高了系统对采集的支持能力。采集 故障转移的效率。屏障转移的效率。屏障转移的效率。

  下载所有详细的技术数据

  【技术实现步骤总结】

  一种物联网数据动态分发方法及系统采集器

  [0001] 本专利技术涉及数据采集

  ,尤其涉及一种物联网数据动态分发方法及系统采集器。

  技术介绍

  [0002] 随着物联网技术的发展,数据采集终端的种类和规模不断增加,对数据采集系统和采集的部署提出了更高的要求> 效率。对于大型采集系统,负载均衡和动态部署是保证采集终端数据高效的基础。

  [0003] 传统的data采集部署方式通常基于中间件的形式实现,例如通过data采集模块完成业务调度和执行,调用data采集逻辑分别从上层,控制数据采集终端实现数据采集。当这种方法配置为最小粒度(指标)时,每个指标被视为一个采集任务,每个采集任务需要单独配置,采集的效率为低的。而data采集器负载均衡依赖中间件,运维难度大,没有动态部署机制。当系统需要添加对其他数据源的支持时,需要扩展新数据采集 协议需要重新部署,维护工作量大,扩展性差。对于*敏*感*词*数据采集 任务,它有明显的局限性。

  技术实现思路

  为了克服现有技术的不足,本专利技术提供了一种物联网数据动态分发采集器的方法和系统,首先将需要采集的终端指标重组为采集按照一定的规则将采集任务列表发送到对应的物联网网关,然后初始化采集执行器的执行环境,最后根据采集执行器完成数据实例化采集 任务采集 工作。该专利技术不仅降低了数据采集系统部署和维护的难度,而且系统新增数据源时无需重新部署,保证了系统数据采集的稳定性和可靠性,并改进了 采集

  一种物联网数据采集器动态分发方法,主要包括:

  [0006] S1:查找所有终端指标,根据终端和数据源对终端指标进行分组,得到指标组列表;

  S2:根据数据源的不同,对索引组列表进行分组,得到数据源索引组;将数据源索引组列表中的索引按照数据源指定的分配算法分发给搜索的物联网网关,得到每个索引组。网关上要执行的采集任务列表,并将任务下发到对应的网关;

  [0008] S3:根据采集的任务,查找是否存在初始化的采集executor执行环境,如果没有,进入步骤S4,如果有,进入步骤S7;

  [0009] S4:查找本地缓存采集执行器文件是否存在,如果没有,则执行步骤S5,如果有,则执行步骤S6;

  [0010] S5:平台向物联网平台请求执行者文件后,将该文件发送至物联网网关,网关接收到该文件后,进入步骤S6;

  [0011] S6:加载并初始化采集执行器执行环境,然后进行步骤S7;

  [0012]S7:根据采集的任务实例化采集器并启动,执行数据采集,通过

  

  网关上传到物联网平台。

  [0013] 进一步地,在步骤S1中,终端索引为数据采集的最小单位,例如压力、流量、温度、湿度等。

  [0014]进一步地,在步骤S1中,查找所有终端指示符的查询条件为:所属终端状态使能,终端指示符状态使能,采集状态为等待;终端状态包括:启用、禁用和删除,度量状态包括:启用、禁用和删除,采集状态包括:已停止、等待、采集和错误。

  [0015] 进一步地,当终端的数据和终端索引中与数据采集相关的信息发生变化时,发起终端索引采集的配置重组,则步骤S1为触发。

  [0016] 进一步地,在步骤S2中,采集任务列表包括数据源信息和采集索引组列表。

  进一步的,一个数据源通过其编号与多个网关的网关编号相关联,在数据源索引组中查找该数据源关联的网关的规则为:该网关可以正常运行采集这个数据源的>任务;查找条件为:与该数据源关联,状态为启用,运行状态为待机或采集;运行状态包括:standby、采集、stopped。

  进一步地,在步骤S2中,所述分配算法包括轮询、加权轮询、总量分配、资源负载和动态负载算法;对于环境相对固定的场景,使用轮询、加权轮询和总分配算法,对于环境变化频繁的采集场景,使用资源负载和动态负载算法。

  进一步地,在步骤S3中,当采集任务在当前网关发生数据采集通道故障时,将重新分配当前采集任务,并将当前网关对应的数据源标记为故障,并将待故障修复后状态恢复为待机后才参与后续分配。

  [0020] 进一步地,在步骤S4中,采集执行器文件包括:采集执行器相关代码和类库。

  一种物联网数据采集器动态分发系统,用于上述数据采集器动态分发方法,包括:

  索引组列表获取模块,用于查找所有终端索引,根据终端和数据源对终端索引进行分组,得到索引组列表;

  采集任务列表获取模块,用于根据数据源的不同对索引组列表进行分组,获取数据源索引组;数据源索引组列表中的索引按照数据源指定的分配算法分发到找到的物联网网关,获取每个网关要执行的任务列表,并将任务发送到对应的网关;

  [0024] 执行环境判断模块,用于根据采集任务判断是否存在初始化的采集执行器执行环境;

  采集执行器文件判断模块,用于查找本地缓存的采集执行器文件是否存在;

  [0026] 文件传输模块用于向物联网平台请求执行器文件。

  [0027] 加载和初始化模块,用于加载和初始化采集执行器执行环境;

  [0028] 数据采集模块用于实例化采集器并根据采集任务启动,执行数据采集,并将其转换成统一的结构并上传它通过网关平台连接到物联网。

  本专利技术提供的技术方案带来的有益效果是:本专利技术可以实现系统内系统任务的负载均衡和动态部署,只需要在系统数据采集时部署网关即可,并且当系统需要添加对其他数据源的支持时,不需要重新部署,只需实现数据源对应的采集执行器并打包上传到物联网平台即可。由于网关的变化相对于采集执行器来说是相对固定的,相对于传统的基于中间件的方式,

  目前的负载均衡和动态部署降低了data采集系统的整体部署和维护难度,提高了系统的可扩展性,保证了系统data采集的稳定性和可靠性,完善了系统表现。采集故障转移的效率。

  图纸说明

  

  下面结合附图及实施例,对本专利技术做进一步说明,附图中:

  [0031] 图。附图说明图1为本专利技术实施例的物联网数据动态分发方法流程图。

  [0032] 图。图2为本专利技术实施例中物联网数据采集器动态分布原理*敏*感*词*。

  详细方法

  [0033] 为对本专利技术的技术特点、目的和效果有更清楚的认识,现结合附图对本专利技术的具体实施方式进行详细说明。

  [0034] 本专利技术实施例提供了一种物联网数据采集器动态分发的方法和系统。

  请参阅图1,图1为本专利技术实施例中一种物联网数据采集器动态分发方法的流程图,具体包括:

  [0036] S1:查找所有终端指标,根据终端和数据源对终端指标进行分组,得到指标组列表。

  [0037] 终端指标是数据采集的最小单位,如压力、流量、温度、湿度等。

  [0038] 查找终端索引的查询条件为:所属终端状态为:启用,终端索引状态为:启用,采集状态为:等待。

  [0039] 终端状态包括:启用

  【技术保护点】

  【技术特点总结】

  1.一种物联网数据采集器动态分发方法,其特征在于,包括: S1:查找所有终端指标,根据终端和数据源对终端指标进行分组,得到指标组列表;S2:根据数据源的不同,对指标组列表进行分组,得到数据源指标组;将数据源指标组列表中的指标按照数据源指定的分配算法和采集任务列表分配给搜索到的物联网网关,并将任务发送给对应的网关;S3:根据采集任务列表,查找是否有初始化的采集executor执行环境,如果没有,进入步骤S4,如果有,进入步骤S7;S4:查找是否有本地缓存​​的采集执行器文件,如果没有,进入步骤S5,如果有,进入步骤S6;S5:向物联网平台请求采集> 执行者文件后,平台将文件发送给物联网网关,网关收到文件后,进入步骤S6;S6:加载并初始化采集执行器的执行环境,然后进行步骤S7;S7:根据采集任务实例化采集器并启动,将数据采集转换成统一结构通过网关上传到物联网平台。2.如权利要求1所述的一种物联网数据采集器动态分发方法,其特征在于:步骤S1中,所述终端索引为数据采集的最小单位,包括压力,流动 ,温度和湿度。3.如权利要求1所述的一种物联网数据采集器动态分发方法,其特征在于:在步骤S1中,查找所有终端指标的查询条件为:归属终端状态启用,并且终端指示灯状态为Enabled,采集状态为等待;终端状态包括:启用、禁用和删除,指示灯状态包括:启用、禁用和删除,采集状态包括:停止、等待、采集和错误。4.如权利要求3所述的一种物联网数据采集器动态分发方法,其特征在于:当终端数据中与数据采集相关的信息发生变化时,终端索引发生变化,将启动终端度量采集的重新合并> 配置触发步骤S1。5.根据权利要求1所述的物联网数据采集器动态分发方法,其特征在于:在步骤S2中,采集任务列表收录数据源信息和采集指标列表团体。6.如权利要求1所述的一种物联网数据采集器动态分发方法,其特征在于:一个数据源通过其序号与多个物联网网关的网关号相关联。 ,找到数据源索引组 数据源中与数据源关联的网关的规则是:网关可以正常运行数据源... 任务列表收录数据源信息和采集 指标组列表。6.如权利要求1所述的一种物联网数据采集器动态分发方法,其特征在于:一个数据源通过其序号与多个物联网网关的网关号相关联。 ,找到数据源索引组 数据源中与数据源关联的网关的规则是:网关可以正常运行数据源... 任务列表收录数据源信息和采集 指标组列表。6.如权利要求1所述的一种物联网数据采集器动态分发方法,其特征在于:一个数据源通过其序号与多个物联网网关的网关号相关联。 ,找到数据源索引组 数据源中与数据源关联的网关的规则是:网关可以正常运行数据源...

  【专利技术性质】

  技术研发人员:李德勇、朱建文、罗乐、霍磊、韩翠燕、

  申请人(专利权)持有人:武汉中智宏图科技*敏*感*词*,

  类型:发明

  国家省市:

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线