文本信息抽取算法研究.doc
优采云 发布时间: 2020-08-26 00:00文本信息抽取算法研究.doc
文档介绍:
文本信息抽取算法研究
(黑龙江工商学院四川成都 150025)
中国论文网/8/view-12937846.htm
随着商品在线评论数目的急剧降低,消费者要想找出商品评论中的有用信息须要消耗大量精力.因此对这种飘散在Html网页中无结构的信息进行提取、分析,不仅还能帮助消费者从海量的文本中快速获得有效的信息,节省人力成本,也可以帮助企业改进产品、提高质量,从而为电子商务产品推荐提供一种新的营销模式.为有效的抽取互联网上的信息,网络文本信息非结构化数据抽取技术、网络文本信息采集技术和细细度数据挖掘技术应用而生.信息抽取技术是通过对网页进行处理,从半结构化或则非结构化的Web页面中抽取出用户感兴趣的信息和内容,并将其转化成清晰的结构方式.
信息采集技术是指通过剖析网页Html代码,获取网页内的超链接信息,并使用广度优先遍历算法、深度优先遍历算法、增量储存算法等实现手动连续的剖析链接、抓取文件、处理和保存数据的过程.细细度挖掘技术深入到产品特点层面,能够提取到评价信息中涉及的评价对象、评价词以及对应的评价倾向等意见要素,从而为一些实际应用提供必要的细节信息.而目前依据抽取技术和根据理论的不同,主要有RAPIERE 、WHISKt 和SRV基于自然语言的信息抽取,STAI KER,SOFTMEAI Y和WINE基于包装归纳的信息抽取,WebQLE基于Web查询的信息抽取,基于文档结构模型和网页模板的DOM 信息抽取。
面对海量数据,抽取技术的性能是一个非常重要的评价指标,而通过网页结构剖析并使用语言和格式规则进行标签筛选的技术却甚少.HtmlParser是不依赖于库文件的轻量级解析器,通过语言与格式规则进行标签筛选,过滤目标数据,在保持系统抽取效率的基础上保证抽取算法的准确性.本文首先介绍了URI 采集以及文本抽取的过程,其次给出了URL采集和文本抽取算法的关键步骤,再次通过举例实现了URL采集和文本抽取算法,表明了基于语言和格式规则的HtmlParser标签解析技术的性能和优势.采用HtmlParser解析网页,得到URL采集库,对库中URL所指向的页面进行标签解析因而实现文本提取的关键部份.
1 URL信息采集算法
信息采集过程的算法设计思想是:首先由一个初始URL对队列进行初始化,然后从队列中取出一个元素,获取此元素所指向的Web页面,对页面进行网页源代码解析,得到目标标签中的URL,将其入队,然后重复前面的过程,不断执行入队一出队一解析一获得URL的循环操作,直到按照采集策略停止算法,具体过程
算法1:URL采集算法
输入:初始URL
输出:URL采集库
1)首先判定参数URL是否为Null;
2)如果为Null,程序退出;否则,根据URL得
到Html页面;
3)利用页面解析器HtmlParser解析网页;
4)分析Html源代码中具体URL信息所在节
点标签;
5)利用标签的href属性,过滤得到下一
页的网页URL地址;
6)将步骤5中的URL地址值传到步骤1,重复
1)~6)的步骤;
7)最后遍历得到所有的目标URL地址,建成
URL采集库.
2 网页文本内容抽取算法