网站自动采集发布系统(基于网页标签属性的字符串编辑距离的网页结构分类算法)

优采云 发布时间: 2022-01-29 17:20

  网站自动采集发布系统(基于网页标签属性的字符串编辑距离的网页结构分类算法)

  【摘要】 在当今信息和数据爆炸的时代,对于互联网上的数据信息,可以进行数据挖掘,提取有价值的信息,预测某些事件的发生。现代主流搜索引擎,如谷歌、百度等,都会在全球部署自己的信息采集系统(爬虫)。在信息采集系统中,最重要的部分是如何解析网页并提取感兴趣的数据信息。在通用信息采集系统中,需要分析不同的模块或不同的网站个性化信息抽取规则,特别是当网页结构相似时,会消耗大量人力资源。自动化信息采集可以解决这个问题。现有的自动化页面解析算法一般是通过模板生成或机器学习实现自动化信息提取。最常见的算法包括启发式算法、树对齐和模板。RoadRunner等生成方法,这些现有算法存在提取的信息收录噪声信息,数据提取时间过长的问题。为了解决上述问题,本文的主要研究内容体现在三个方面。首先,针对网页信息自动提取中人工干预和噪声信息比例高的问题,提出了一种基于标签的网页文本块三叉树的解决方案。经过大量分析,本文确定了能够正确描述网页分布的标签,并确定了标签的阈值。最后结合三叉树信息抽取模型,制定统一的信息抽取规则。实验表明,该信息提取算法在时间和噪声信息比例方面均优于同类提取算法。其次,为了更好地适应自动信息抽取,需要解决网页结构的分类问题。目前最常见的网页结构分类算法是基于DOM树的编辑距离,但该算法最突出的缺点是耗时过多。结合现有主流站点之间应用网页模板的可能性较低以及同一站点不同版块之间可能存在的差异,提出一种基于网页标签属性字符串编辑距离的网页结构相似度判断方法。实验表明,该算法确定网页相似结构的时间约为DOM树编辑距离方法的3/4。第三,设计自动化信息采集系统。在系统实现过程中,为了加速信息采集为了实现爬虫的动态配置,使用ZooKeeper作为配置中心。底层数据持久化使用 MySQL 数据库。该系统的实现避免了人工制定信息抽取规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线