完整解决方案:自动化信息采集系统的设计与实现

优采云 发布时间: 2020-11-12 12:03

  自动化信息采集系统的设计和实现

  [摘要]:在当今信息和数据爆炸时代,可以对Internet上的数据信息进行数据挖掘,以提取有价值的信息并预测某些事件的发生。现代主流搜索引擎,例如Google,百度等,将在全球范围内部署自己的信息系统。在信息采集系统中,最重要的部分是如何解析网页并提取感兴趣的数据信息。在一般信息采集系统中,有必要使用不同的模块或不同的网站个性化网站制定信息提取规则,尤其是当网页结构相似时,会消耗大量的人力资源。自动化信息采集可以解决此问题。现有的自动页面解析算法通常使用模板生成或机器学习来自动提取信息。最常见的算法包括启发式,树对齐和模板生成。例如,RoadRunner等,这些现有算法的问题在于提取的信息收录噪声信息以及数据提取时间过长的缺点。为了解决上述问题,本文的主要研究内容体现在三个方面。首先,为解决人工干预和噪声信息在网络信息自动提取中比例过大的问题,提出了一种基于标签网页主体块的三叉树的解决方案。通过大量的分析,本文确定了可以正确描述网页文本分布的标签,并确定了标签的阈值。最后,结合三叉树信息提取模型,制定了统一的信息提取规则。实验表明,在时间和噪声信息比例上,信息提取算法的性能优于同类提取算法。其次,为了能够更好地适应自动信息提取,有必要解决网页结构的分类问题。当前,最常见的网页结构分类算法是基于DOM树的编辑距离,但是该算法最突出的缺点是时间消耗过长。结合现有主流站点之间Web页面模板应用的可能性较低,以及同一站点不同区域可能存在的差异,提出了一种基于Web页面标签属性的字符串编辑距离的Web页面结构相似性判断方法。实验表明,该算法确定网页相似度的时间约为DOM树编辑距离方法的3/4。第三,设计一个自动化的信息采集系统。在系统实现过程中,为了加快信息采集的使用,采用了分布式架构。为了实现履带的动态配置,将ZooKeeper用作配置中心。底层数据持久性使用MySQL数据库。该系统的实现避免了人工制定信息提取规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线