一种互联网信息人工智能采集方法及其系统和过程

优采云 发布时间: 2020-08-05 15:07

  

  本发明涉及网络信息采集技术领域,尤其涉及一种通过网页采集模型实现的Internet信息采集方法和系统.

  背景技术:

  随着Internet的迅猛发展和大数据平台的出现,海量的网络信息已难以描述,从网络数据中搜索和查询所需的数据更加麻烦. 现有的搜索模式通常通过搜索在搜索引擎或专业数据库中进行搜索,但是由于数据更新速度快,因此每次都需要对其进行搜索和重新检查,这不仅浪费时间,而且效率低下.

  此外,对于某些数据采集系统,通常是通过连续检索和连续数据分析以及去噪来获得所需的数据. 每次检索都需要重复以前的工作,这是浪费资源.

  技术实现要素:

  为了解决现有互联网数据采集的繁琐和资源浪费的问题,本发明提供了一种快速高效的人工智能采集方法和系统.

  为了达到上述目的,本发明提供的技术方案是: 一种互联网信息人工智能采集方法,包括以下步骤:

  建立网页采集模型,并建立基于爬虫或搜索引擎检索的模型以获得网络数据;

  获取网络信息,并使用网页采集模型在大数据平台上采集有关文章,新闻和帖子的数据;

  数据处理,对采集到的数据进行数据处理,包括图像处理,文本翻译,去噪和重复数据删除;

  数据分析,根据结构将处理后的数据分为多个数据单元,自由组合这些数据单元以形成一个数据单元组,然后对该数据单元组进行语义匹配,输出匹配索引,并用匹配指数最高的单位组;

  重新学习网页采集模型,存储数据分析结果,并将其交替提供给深度神经网络,作为网页采集模型的学习样本,并定期审查和迭代修改模型;

  结果输出,在模块的人机交互界面中显示数据分析的结果.

  在上述技术方案中,深度神经网络获取多组内容混合特征数据,将特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果进行训练数据会更新深度神经网络模型参数,更新的深度神经网络将用于下一组训练,直到深度神经网络模型参数收敛为止.

  在上述技术方案中,特征数据还包括网站类型,URL,文章标题,文章来源,文章发表时间,文章重印,文章点击次数,文章评论,文章摘要和文章作者.

  作为优选的技术方案,图像处理由OCR图片识别模块执行.

  此外,本发明提供一种用于Internet信息的人工智能采集系统,包括: 网页采集模块,用于从Internet或大数据平台采集数据,提取所需的文章,新闻,帖子或微博数据,并通过深度神经网络进行再学习;

  数据处理分析模块,用于对网页采集模型采集的数据进行分析,包括图像处理,文本翻译,关键词提取,去噪,去重,匹配索引和相似度分析;

  数据存储模块,用于存储Web采集模型采集的数据和数据分析模块的数据;

  人机交互模块用于在人机交互界面中显示经过分析处理的数据子模块,可以通过人机交互界面修改需要采集的内容.

  在此系统中,最好由OCR图片识别模块执行图片处理.

  在系统中,人机交互模块又分为信息模块,报告模块,过滤器模块,任务模块和统计模块.

  本发明相对于现有技术的有益效果是,该采集方法是基于网页采集模型对互联网数据进行检索和分析,然后与人机交互显示相结合,通过网络的特征模式进行学习. 深度神经网络,并使用深度神经网络将解析数据与特征数据进行比较,并更新检索和分析方法. 每次学习时,网页采集模型都会提高数据检索的准确性. 经过一定的学习,可以达到人眼与人脑的协作水平;是的,通过学习网络采集模型,采集系统无需人工干预即可达到效果.

  图纸说明

  图1是本发明方法的流程图;

  图2是本发明方法的详细流程图;

  图3是本发明的系统*敏*感*词*;

  图4是本发明系统的详细*敏*感*词*;

  图5是系统的总体框架.

  具体的实现方法

  下面将参考附图进一步描述本发明的具体实施例. 这里应当注意,这些实施例的描述用于帮助理解本发明,但是不构成对本发明的限制. 另外,以下描述的本发明的各个实施例中涉及的技术特征可以彼此组合,只要它们彼此不冲突即可.

  如图1和图2所示,一种用于Internet信息的人工智能采集方法包括以下步骤:

  S10: 建立网页采集模型;建立模型以通过搜寻器或搜索引擎检索网络数据. 该模块用于从Internet或大数据平台采集数据,提取所需的文章,新闻,帖子或微博数据,以及通过深度神经网络进行重新学习;

  S20: 获取网络数据;通过网络采集模型在大数据平台上采集有关文章,新闻和帖子的数据,包括采集网站类型,URL,文章标题,文章来源,文章发表时间,文章转载,点击次数,文章评论,文章摘要,缓存文章作者等数据,如图2所示. 任务处理引擎根据调度的任务获取要执行的采集任务后,任务处理引擎下达任务. 采集下载引擎下载并采集网络信息,然后忘记了页面分析引擎处理和分析网络数据,即下一步S30.

  S30: 数据处理;对采集到的数据进行数据处理后,结果处理引擎将采集包括图像处理在内的数据,并通过OCR图像识别模块对图像进行处理,以提取图像中的文字或图案;通过翻译进行文本翻译模块将网站中的非中文文本翻译成中文,然后提取文本关键字并将其与用户设置的关键字进行比较;然后去噪,删除低相关性信息,然后删除相同或高度相似的内容. 文章,新闻等在删除时也会被删除.

  S40: 数据分析. 根据结构将处理后的数据分为数据单元. 数据单元包括文本​​标题和文章内容. 每个标题或内容都是一个数据单元,然后将这些数据单元自由组合成一个数据单元组,然后对该数据单元组执行语义匹配. 使用分词技术对数据单元组中的两个或多个数据单元进行匹配,计算出相关的技术指标,如词频,情绪,正负等,然后比较上述指标进行加权平均,最终得到匹配指标,并提取出匹配索引最高的数据单元组;

  S50: 结果输出,它在人机交互界面中显示分析数据,即数据单元组中具有最高匹配索引(文章标题,文章内容)的数据,文章模块,新闻模块,微博模块和发布模块等使用这些模块将检索到的信息放入相应的模块中,方便用户阅读;

  S60: 重新学习网页采集模型,优化网页采集引擎功能,学习样本,数据分析结果和在人机交互中修改的采集数据被存储并交替循环到深度神经网络作为网页采集模型研究样本,并定期审查和迭代修改模型. 深度神经网络获取多组内容混合特征数据. 特征数据包括网站类型,URL,文章标题,文章来源,文章发表时间,文章重印,文章点击,文章评论,文章摘要,文章作者,然后将特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果,并用训练数据更新深度神经网络模型参数,更新的深度神经网络将用于下一组训练,直到深度神经网络网络模型参数收敛,并且可以重新建立网页采集模型.

  通过深度神经网络的特征模型学习,深度神经网络用于将解析后的数据与特征数据进行比较,并更新了检索和分析方法. 每次学习时,网页采集模型都会更准确地检索数据. 经过一段时间的研究,可以达到人眼与人脑之间的协作水平.

  此外,如图3和图4所示,本发明提供了另一个Internet信息人工智能采集系统,包括: 网页采集模块,其使用爬虫或搜索引擎来检索用于获取网络数据的模型. 它从Internet或大数据平台采集数据,提取所需的文章,新闻,帖子或微博数据,然后通过深度神经网络进行重新学习.

  具体的了解是,网页采集模块将数据分析模块的分析结果和在人机交互中修改后的采集数据进行存储,并交替发送给深度神经网络,作为网络学习的样本. 网页采集模型,并分阶段进行阶段审查,反复修改模型. 深度神经网络获取多组内容混合特征数据. 特征数据包括网站类型,URL,文章标题,文章来源,文章发表时间,文章重印,文章点击,文章评论,文章摘要,文章作者,然后将特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果,并用训练数据更新深度神经网络模型参数,更新的深度神经网络将用于下一组训练,直到深度神经网络网络模型参数收敛,并且网页采集模块正在学习.

  数据采集对象包括新闻,论坛,博客,帖子栏,网页,微博等. 在配置监视任务时,可以同时配置多个关键字,并且多个关键字之间用#分隔,过滤词为用于过滤搜索结果,此项为可选.

  此外,该系统还包括一个数据分析模块,即图4中的获取和分析引擎,用于图像和文字处理. 任务引擎获取任务后,将对采集的数据进行分析. 有多种分析方法. 对于图片,使用OCR图像识别模块处理图片并提取图片中的文本或图案;对于文本,包括文本翻译,使用翻译模块将网站中的非中文文本翻译成中文,然后提取文本关键词并比较用户设置的关键词;然后执行去噪,删除低相关性信息,然后删除相同或高度相似的文章,新闻等进行重复数据删除. 其中,相似性分析受保护,这将是两个. 或比较多篇文章和新闻,最后给出相似之处.

  系统还包括一个数据存储模块,用于存储网络采集模型采集的数据和数据分析模块的数据;

  该系统还包括一个人机交互模块,该模块在人机交互界面中显示经过分析和处理的数据子模块,同时可以通过以下方式修改需要采集的内容: 人机交互界面. 人机交互模块分为文章模块,新闻模块,微博模块,发布模块,文章模块,新闻模块,微博模块和发布模块. 这些模块用于将检索信息放置在相应的模块中,以方便用户参考;另外,在人机交互中增加了一个设置模块,同时可以通过该设置模块改变需要采集的内容,以修改引擎配置中心,具体包括关键字管理,网站管理,链接管理,标题管理,过滤词管理,作者设置等,用户只能根据设置的URL搜索和检索网站的文章或新闻,或者仅检索作者的相关文章等.

  如图5所示,用户可以通过管理配置中心访问分布式采集服务器. 分布式采集服务器通过网络与Internet,视觉识别引擎服务器和数据存储服务器通信,以便多个用户可以同时访问每个服务器,从而增加了服务器的承载能力,从而改善了用户体验.

  以上已经参考附图详细描述了本发明的实施例,但是本发明不限于所描述的实施例. 对于本领域技术人员而言,在不脱离本发明的原理和精神的情况下,对这些实施例的各种变化,修改,替代和修改仍属于本发明的保护范围.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线