整套解决方案:云采集排错教程
优采云 发布时间: 2022-10-05 10:33整套解决方案:云采集排错教程
Cloud采集 故障排除教程
本教程为本地采集有数据,云端采集无数据的故障排除教程。如果本地采集没有数据,请先参考本地采集故障排除教程。
本地采集有数据,云端采集没有数据。主要原因如下:
1. 防止采集
2.网站或者网速原因
3.网络环境不同,源码变了,原来xpath位置不准确
4. 网站只允许单浏览器或单IP登录
1. 防止采集
防采集主要分为以下三类:IP被封、访问被禁止、出现验证码、需要云端登录
对于以上三种情况,可以通过采集网页的html源码观察。这里我们以人民网采集的招聘数据为例。如下图1所示,云采集启动后,子任务出现采集为0。
图1 Cloud采集子任务状态
这时候,我们可以采集观察云上打开的网页源代码网站,查看为什么云采集采集无法获取数据。
采集网页源码的具体步骤如下:
1、在规则对应位置添加【提取数据】步骤,然后添加字段采集当前网页的源代码。
2、然后启动云采集查看云采集数据,将采集中的源代码复制粘贴到txt文件中,然后保存为.html文件。
3、在浏览器中打开保存的.html文件进行查看,如下图2所示:
图 2 在浏览器中查看 .html 文件
在浏览器中打开采集的源码,可以查看云上采集时出现的滑块验证,导致采集没有数据,滑块当前不可用。自动验证。如果是字母数字验证码,可以设置自动编码。支持自动编码的类型
如果IP被封禁访问,需要登录云端,也可以使用上述方法采集查看网页源码,在浏览器中查看。如需登录,请在规则中设置登录。如果IP被封,可以尝试设置交换机IP,尝试采集。
2.网站或者网速原因
知识补充 如果一个点网站没有完全打开,会显示在图3的红线处:
图3 网页未完全打开
如上图,我们可以清楚的看到网站网页URL明显有一个红框图标:
完全打开的 网站 应该如图 4 所示:
图 4 完全打开的网页
有时候一个网页,即使完全打开,列表数据也会延迟几秒加载,如图5所示:
图5 网页完全打开,数据列表数据未完全加载
如红框1所示,网页已完全打开,但红框2的列表数据尚未加载。下一个操作步骤会立即执行,但是此时,如红框2所示,列表数据没有加载,所以执行失败,云采集没有数据。
解决方案:当由于网速或者网站本身导致数据加载过慢时,我们只需要做如下优化操作
规则优化请参考教程:如何优化规则采集资料更全
3.网络环境不同,源码变了,原来xpath位置不准确
部分网站网页的源码在不同环境下会发生变化,导致采集在本地正常,但在云端xpath定位不准确,导致采集收不到数据。此类情况的解决方案如下:
1、使用上面采集网页的html源码的方法,将采集网页的源码保存为.html文件,然后在火狐浏览器中打开该文件。
2.然后修改字段的xpath
这里修改xpath需要学习掌握xpath的知识
4. 网站只允许单浏览器或单IP登录
网站只允许单浏览器或单IP登录。如果任务被拆分,云 采集 将不会收到数据。解决方法:设置云采集不拆分。
总结:以上就是我们云采集的通用故障排除教程。仔细阅读和理解其原理可以帮助我们更好地采集互联网上的公共数据
整套解决方案:一种面向用户生成内容的分布式采集方法与系统的*敏*感*词*法
一种用户生成内容的分布式采集方法和系统
【技术领域】
[0001] 本发明涉及信息技术领域采集,尤其涉及一种用户生成内容的分布式方法及系统。
【背景技术】
[0002] 用户生成的内容被称为UGC (用户生成的内容)。UGC新闻是用户在社交媒体(如微博、博客、社交网络等)中自发上传或分享的新闻事件信息。UGC内容也因其反应及时、传播速度快的特点,成为传统媒体的主要信息来源。目前,随着互联网技术的普及和WEB2.0技术的蓬勃发展,普通用户已经成为互联网上内容的主要生产者。但由于UGC新闻门槛低,任何用户都可以上传内容到互联网,UGC新闻缺乏有效监管,假新闻大量存在。
[0003] 基于UGC的新闻认证预警是一种基于互联网海量数据对新闻信息的真实性进行分析和预警的自动认证方案。基础是海量数据的深度采集和结构化组织。由于新闻认证和预警是一项实时任务,需要针对特定但多样化的信息页面,因此需要数据采集系统的高效、复杂和分析能力。
[0004] 从*敏*感*词*的技术进步来看,一方面,现有的分布式采集解决方案不注重效率,而是注重连续性和稳定性,因此现有的分布式采集解决方案不能满足新闻认证和预警系统的实时性要求;另一方面,目前采集任务需求集中在单个页面采集,每个子节点通常是采集一个页面,这种方案无法满足具体但多样化的页面采集 需要新闻认证提醒。总之,新闻认证和预警需要采集的UGC信息类型复杂,实时性要求高,目前还没有相应的数据解决方案。
【发明内容】
[0005] 因此,本发明的任务是克服现有技术的不足,提供一种实时性高的UGC新闻分发方案。
[0006] 本发明提供一种用户生成内容的分发方法,包括以下步骤:
[0007] 1)根据采集页面的采集数量和采集难度,划分页面类型,基于采集任务构建页面类型并添加到 采集 队列;其中,采集任务包括复合采集任务,复合采集任务是根据采集的数量和难度组合多个相同类型的任务采集 个页面被分组为由相同 采集 任务形成的 采集 个任务;
[0008] 2)同时从采集任务队列中取出采集任务,执行采集任务并返回采集的信息。
其中,所述步骤1)还包括:根据采集数量和采集难度将部分采集任务进一步划分为多个子任务并添加子任务到所述采集队列;
[0010] 步骤2)还包括:同时从采集任务队列中取出子任务,执行子任务并返回采集的信息。
[0011] 其中,步骤1)中,采集难度包括页面对采集的频次限制,以及是否需要身份认证来判断。
[0012] 本发明还提供一种面向用户生成内容的分布式采集系统,包括采集集群,采集集群包括主节点和多个子节点,所以上面提到的主控节点用来建立和维护采集任务队列,根据收到的采集的采集数量和采集难度来划分页面类型页面,然后根据页面类型构造采集 任务并加入采集 队列,其中采集 任务包括复合采集 任务;任务队列取出采集任务,执行采集任务,返回采集的信息。
[0013] 其中,主控节点还用于根据采集任务队列中采集的数量和采集的难度将任务划分为多个子任务。,子节点还用于并发地从采集任务队列中取出子任务,执行子任务并返回采集的信息。
[0014] 其中,分布式采集系统还包括登录管理模块,登录管理模块用于管理和提供各个常用新闻采集网站给各个子-nodes 登录信息。
其中,登录管理模块还用于维护可用账户池,完成账户的分配、回收、异常处理和新增。采集子节点也用于向登录管理模块申请可用账号,完成账号的模拟登录,登录异常的账号和使用过程中出现异常的账号上报给登录管理模块,登录管理模块申请添加账号等功能。
其中,其特征在于还包括反监控模块,反监控模块用于通过预设的采集策略实现反监控,预设的采集策略包括:任务分配给多个采集子节点采集,单个采集子节点使用多个账户轮换采集,根据不同的采集页面设置 采集间隔和并发采集数量中的一项或多项。
本发明还提供一种基于前述分布式采集系统的分布式采集方法,其特征在于,包括以下步骤:
1)主控节点根据接收到的采集页面的采集和采集难度,划分页面类型,然后构建相应的收米任务;
[0019] 2)主控节点根据页面类型和采集难度将构造的采集任务加入到任务队列中,采集任务包括复合采集对于任务,主控节点还根据页面类型和采集难度对构造好的采集任务进行细分,并将细分后的子任务加入任务队列;
[0020] 3)每个子节点同时从任务队列中获取采集任务或子任务,执行采集任务或后面的子任务并返回采集的信息。
其中,所述步骤3)还包括:每个子节点一旦空闲就竞争获得分布式锁,如果获得分布式锁,则立即进入任务队列获取任务,任务完成后采集子节点将结果放入采集 进入约定的临时存储空间并通知主节点。
其中,其特征在于还包括步骤:
4)当同批次的子任务完成后,主控节点完成采集的结果合并;采集主节点丢弃部分返回的结果,让这个任务超时。
[0024] 其中,步骤3)还包括,当子节点执行采集任务时,子节点还从采集的页面中提取表征页面监控措施的状态信息,分布式采集系统根据代表页面监控措施的状态信息调整采集反监控策略,采集反监控策略包括: 分配给多个采集子节点采集,单个采集子节点使用多个账户轮换采集,根据不同的采集页面设置对应的一个或更多采集间隔和并发采集数量。
与现有技术相比,本发明具有以下技术效果:
[0026] 1、本发明的采集速度快,显着提高了UGC新闻采集的实时性。
[0027] 2.本发明可以应用于采集的各种类型的页面,并且可以执行采集的各种任务。
[0028] 3、对于已采取监控措施的采集对象,本发明可以规避并顺利完成相应的新闻采集任务。
[0029] 4、本发明可应用于新闻鉴权预警、多层次舆情信息挖掘服务、热点事件分析服务等对信息实时性要求较高的各种领域。 .
【图纸说明】
下面结合附图对本发明实施例进行详细描述,其中:
[0031] 图。图1示出了根据本发明实施例的UGC新闻分布式采集系统的框架图。
【详细方法】
[0032] 图。图1为本发明实施例提供的UGC新闻分布式采集系统的框架图,包括:线程预处理模块、采集实体选择模块、采集簇、存储管理模块、登录管理模块和防阻塞管理模块。这些模块如下所述。
1、线索预处理模块
[0034] 线索预处理模块用于对采集线索进行预处理。采集线索包括新闻的简短描述或短语,新闻何时开始,何时结束等。它收录各种新闻元素,但通常不适合直接作为后续数据处理的输入。因此,线索预处理模块对采集线索进行预处理,如分词、关键词提取、无效词过滤、语义实体识别等,提取新闻元素。这些新闻元素将告知 采集 任务的分配和定位。
2、采集实体选择模块
[0036] 采集实体选择模块用于根据输入的新闻元素获取对应的采集页面。该模块根据采集线索获取相关关键词、相关新闻内容地址(如微博、博客、社交网络等UGC新闻地址)、相关用户地址等信息。线索预处理结果 构成一组采集目标候选。进一步地,各种类型的采集目标(即采集实体)也可以按照目标在目标候选集中的重要性进行排序,可以选择排序前的n个对象作为最终的采集 目标,如关键推文、关键用户等。