核心方法:网页分类与信息采集方法研究
优采云 发布时间: 2021-01-11 11:17核心方法:网页分类与信息采集方法研究
[摘要]:网页分类和信息采集该系统包括网页抓取,网页识别和文本采集。其中,依靠人工网页识别的传统方式是在网络信息容量迅速增加的条件下。不合理。同时,网页中收录的大量噪声信息增加了网页文本的难度采集。现有的采集技术具有人工维护成本高,准确性低,通用性差的缺点。因此,对网页和文本采集的自动识别的研究已成为重要的方向。它们与信息检索,搜索引擎,互联网民意和文本推荐等技术相结合,为信息获取提供了便利。本文的研究内容主要包括以下几个方面:(1)根据网页分类和信息采集系统的要求,提出了一种基于网页结构特征挖掘的网页类型自动识别方法。该方法的重点是特征选择,在理解网页特征挖掘的基础上,研究了不同网页的结构差异,提取了可表征网页的特征集,并采用经典的分类算法(决策树)进行构造。 (2)在文本采集自动化的要求下,提出了一种基于HTML标签特征挖掘的BBS网页文本提取方法,即:文本块提取,其中心思想是基于以下特征:Web文档的树形结构,多文本中心性,标记元素的层次结构等。在此基础上,提出了一种基于智能模板的BBS网页文本提取方法。主要思想是基于HTML标记特征挖掘找到所需的BBS网页文本提取方法,将多个文本块的公共信息,然后自动配置对应于网站的文本解析模板,最后使用该模板进行解析网页文字。 (3)构建网页分类和信息采集系统。该系统包括网页捕获网页识别,网页文本提取和UI部分。网页爬网部分采用通用的爬网技术和流程,目标是搜索整个网络,网页识别采用基于本文网络功能集的网页类型自动识别方法,网页文本提取部分是基于文本的智能模板的BBS网页文本提取方法。通过实际数据对该系统的方法进行测试,实验结果表明该方法在系统中是可行的,具有较高的准确性,通用性和智能性。