网页视频抓取脚本(新闻信息在线提取方法研究文献:基于统计理论的技术)
优采云 发布时间: 2021-11-05 11:12网页视频抓取脚本(新闻信息在线提取方法研究文献:基于统计理论的技术)
新闻文本信息在线提取方法研究
*敏*感*词*识别码:A(文章No.BP)文章No.:16727800(2017)004000905
0 引言 目前,互联网资源丰富,如何从海量信息中获取所需信息已成为Web智能信息处理研究领域面临的重大问题之一。由于实际新闻网页往往收录大量与主题无关的导航区、超链接、广告信息、版权信息等噪声信息,在设计搜索引擎工具时,按主题搜索相关信息时,新闻信息应该使用提取技术来消除网页中的噪音。信息,从而获取整个新闻的正文信息。新闻信息抽取技术是一种以Web为信息源的信息抽取技术,即,从新闻页面收录的非结构化或半结构化信息中识别用户所需的数据。为了提高Web新闻信息提取的准确性和效率,许多学者提出了自己的方法并不断改进。它们可以分为四类:基于统计理论的技术、基于文档对象模型的技术、基于模板的技术和基于视觉特征技术的技术。
(1)基于统计理论的方法,利用统计方法和规律,通过将HTML文档作为一个整体或去除网页标签来获取网页文本信息。这种方法克服了数据来源的限制,具有通用性。Arias et阿尔。
[1] 从网页标签序列中找出对应的文本序列。由于网页正文和非文本在长度和标签数量上的差异,可以在此基础上构建网页文本密度图,并通过统计方法识别网页正文部分;并参考文献[2]提出了一种基于行块分布的方法。这种方法摆脱了网页结构的限制,可以高效准确地提取网页文本,但需要人工干预,对网页其他信息提取不足。
(2)基于文档对象模型方法,将HTML文档解析成DOM树,利用节点特征制定相应的抽取规则。目前已有很多形成系统和经典算法,如RoadRunner系统、DSE算法、MDR算法等。
[3]。许多学者在此基础上进行了深入研究。比如王琦
[4] 基于DOM规范,将HTML文档转换为收录语义信息的STU-DOM树,进行基于结构的过滤和基于语义的剪枝,提取网页主题;古普塔等。
[5] 使用启发式规则构造过滤器来过滤和删除DOM树中无用的节点。黑名单策略用于过滤广告。这种方法依靠文档本身的结构优势,不需要复杂的技术和人工干预,但不具有通用性。
(3)基于网页模板的提取算法。这类算法大致可以分为两类,一类是从具有相同结构的网页中提取模板作为参考,这种模板一般来自相同的网站 从不同的网页中提取;另一种是从各种不同的网页中进行分类,分别提取更高层次的抽象、更通用的模板、Reis等。
[6] 使用树状正则表达式pe-pattern,用RTDM算法对样本网页进行聚类,从聚类结果的DOM树中提取ne-pattern作为聚类模板;维埃拉等人。
[7] 扩展了RTDM算法,利用树的最小编辑距离实现DOM树模板的检测和删除。这些方法从模板的角度提供了比较新颖的思路,但是计算量很大,在处理海量数据时效率低下。
(4) 基于视觉块的提取算法。这种算法从用户对网页的视觉感知出发,根据网页中节点的样式特征对页面进行划分,然后找到块在哪里文本从块的结果中定位,以达到提取文本的目的。黄文北等。
[8] 以TVPS算法为参考,构建DOM树,寻找最低容器节点的每个文本节点与等效容器标签合并,计算信息量,比较最低容器节点与其兄弟节点, parent nodes 信息量,从而选择可以形成文本块的节点。该方法考虑了收录在 DOM 中的文本节点的结构。与原算法相比,准确率有了一定的提高,但算法的计算复杂度还是比较大的。这些提取文本信息的方法的前提是所有的文本信息都在网页中,但是新闻图片网页的文本信息一般不会全部在网页中,比如:腾讯、搜狐、新浪、凤凰等新闻图片频道,大多需要用户点击翻页。要获取更多信息,传统方法很难准确获取此类新闻网页信息。因此,本文在研究现有提取技术的基础上,采用动态网页信息提取方法、行块分析算法和DOM技术,实现了面向大型新闻门户的新闻网页文本信息提取系统。该系统不仅解决了网页文本提取问题,还解决了文本信息不完整的网页文本提取问题。传统方法很难准确获取此类新闻网页信息。因此,本文在研究现有提取技术的基础上,采用动态网页信息提取方法、行块分析算法和DOM技术,实现了面向大型新闻门户的新闻网页文本信息提取系统。该系统不仅解决了网页文本提取问题,还解决了文本信息不完整的网页文本提取问题。传统方法很难准确获取此类新闻网页信息。因此,本文在研究现有提取技术的基础上,采用动态网页信息提取方法、行块分析算法和DOM技术,实现了面向大型新闻门户的新闻网页文本信息提取系统。该系统不仅解决了网页文本提取问题,还解决了文本信息不完整的网页文本提取问题。
1 系统概述
系统整体分为3部分:预处理模块(Pretreatment)、动态网页信息提取模块(Dywebextract)、新闻常用网页信息提取模块(Stwebextract)。系统总体框架如图1所示。 预处理模块(Pretreatment):预处理模块是一个提取正文信息的预处理模块,可以提前获取新闻标题、发布时间等信息;对不同的新闻网页进行分类,动态网页使用动态网页提取模块。对于新闻普通网页使用静态网页信息提取模块。动态网页信息提取模块(Dywebextract):该模块的主要功能是解析新闻图片网页,识别翻页字符,获取文本信息。通用新闻网页信息提取模块(Stwebextract):该模块分析通用新闻网页。它基于行块分布算法提取文本信息,并通过中文语法规范降低噪声。
2 各模块算法设计与实现
2.1 预处理模块在新闻文本信息提取系统中,为保证新闻文本信息提取的质量和效率,在提取相关信息时应根据网页类型采用不同的提取方法(即大部分新闻图片网页采用动态提取方式,一般新闻网页采用行块分布方式)。可以看出,在提取信息之前应该对网页进行分类。根据提取目的,预处理模块用于完成新闻网页的分类。另外,由于行块分布算法不依赖于网页结构本身,提取新闻标题等信息显然是不够的。所以,需要在预处理模块中使用DOM技术提取新闻标题、发布时间等信息,并将新闻标题和新闻网页HTML文档、新闻URL等信息打包发送给下级模块。因此,预处理模块的作用是对网页进行分类,利用文档对象模型提取新闻标题等信息。2.1.1网页新闻分类新闻网页一般分为导航网页和话题网页两种。话题网页通常通过文字、图片和其他信息的段落来描述新闻话题。为便于处理,可分为两个子类: ① 一般新闻网页。这种类型的网页类似于静态网页。网页加载完成后,采集需要的信息在网页上。大多数新闻网页都属于这一类;②动态网页。即图片新闻(指具有相同事件主题和简短文字说明的图片集合)。网页加载后,采集的信息并非全部在网页中。需要翻页才能更新网页内容。很多新闻图片网页都属于这一类,如图2所示。 一般互联网上的每一种资源,如网页、图片、视频等,都有一个唯一的URL,其信息包括位置文件以及浏览器如何处理它。URL的一般格式为:协议类型://服务器地址(一般情况下默认不写端口号)/路径名/[? 查询][#信息片], 其中方括号[]是可选的,例如: 通过观察验证,属于同一新闻网站的内容动态网页的布局和样式外观类似。同时,同一网站的动态网页的URL相似度也很高。这是来自web开发,网站管理的效率和便利性也很合理,所以用URL相似度来对新闻网页进行分类。齐等。同一个网站的动态网页的URL相似度也很高。这是来自web开发,网站管理的效率和便利性也很合理,所以用URL相似度来对新闻网页进行分类。齐等。同一个网站的动态网页的URL相似度也很高。这是来自web开发,网站管理的效率和便利性也很合理,所以用URL相似度来对新闻网页进行分类。齐等。
[9]在URL相似度的计算中使用了Dice系数,并结合使用统计方法完成了URL相似度的测量。该方法从字符串处理的角度出发,由于URL的格式特性,本文在协议、服务器名、域名相同的情况下,利用新闻URL特性来判断动态网页。具体如下: ①如果新闻网址字符在字符串中,如果路径中收录“pic”、“photo”等图片相关的英文字符串,则说明新闻网址为动态网页。例如:人民网、新华网等网站中的网址中收录这些图片字符串;②如果新闻网址后缀遇到递增数字或递增字母,新闻页面为动态页面,如:腾讯,新浪、搜狐、网易、凤凰等网站中的URL后缀具有很强的格局,不断增加。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 如:腾讯、新浪、搜狐、网易、凤凰等网站中的网址后缀,格局非常强,数量不断增加。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 如:腾讯,新浪、搜狐、网易、凤凰等网站中的URL后缀,格局非常强,数量不断增加。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit @网站 如新浪、搜狐、网易、凤凰等都有很强的格局,不断增加。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit @网站 如新浪、搜狐、网易、凤凰等都有很强的格局,不断增加。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 增加数量。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 增加数量。2.1.2〓文档对象模型文档对象模型(DOM)是用于处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构、HTML标签、属性,或文本都被视为树的一个节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 2〓文档对象模型文档对象模型(DOM)是处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构,HTML标签、属性或文本都被视为一个节点。那个树。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 2〓文档对象模型文档对象模型(DOM)是处理HTML和XML文档的标准应用程序接口(API),它将文档表示为树状结构,HTML标签、属性或文本都被视为一个节点。那个树。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit
[10] 渲染新闻网页获取HTML源代码,然后使用Jsoup中的DOM对象提取新闻标题、发布时间等信息。例如:提取新闻标题时,先提取标签中的标签内容,然后截取“―”、“_”、“/”等标签(内容常用于将标题和新闻来源分开)作为新闻标题。2.2 动态网页信息提取模块 Dywebextract 模块接受预处理模块的数据,主要功能是动态网页翻页识别和文本信息提取。对于动态网页翻页识别,采用了两种策略:①如果新闻网页有本地url模式模板(系统在初始化时根据各大新闻网站动态网页url的特点添加url模式)或XPath模板(有效元素路径),翻页自行根据url模式模板(url后缀数字增加或字母减少)或触发点击XPath。如果新闻页面的标题相同,则循环翻页,直到没有捕获到有效页面(出现重复页面或死链接);②如果本地没有对应的url模式模板或XPath,获取HTML中的候选有效元素,然后触发,最后通过触发validity过滤掉有效元素。对于文本信息提取,本文利用了同一新闻门户中动态网页高度相似的结构,并采用两种策略:①是否有XPath模式模板?欤?,根据XPath模式模板提取文本信息;②如果不是,利用布局相似度的网页正文内容提取方法
[11] 提取身体信息。XPath模式模板库的管理采用时序管理方式。如果 XPath 模式模板库中的某个 XPath 一周未使用,则该模板将被视为无效的 XPath 并被删除。该模块的算法流程如图3所示,下面重点介绍几个主要环节。
2.2.1 备选有效元素集合 动态网页收录有效元素。触发有效元素后,会异步生成动态信息,而静态网页不需要触发有效元素来获取信息。但是,动态网页收录许多触发元素(如按钮、文本框、链接等)。有效元素产生的动态信息是有价值的动态信息,无效元素产生的动态信息是无效信息。例如,触发元素仅更改了网页的字体颜色或其他嘈杂部分。在动态网页中,诸如,等标签所代表的元素可能会导致页面发生变化
[12],从而产生有价值的动态信息,因此该系统将有效元素筛选限制为仅和标签。为了进一步缩小有效元素的搜索范围,提高获取页面信息的效率,需要在搜索有效元素之前确定有效元素的标签集。对于本系统,有效元素是可以点击下一页的元素来获取下一页的文本信息。因此,本文统计了腾讯网站等8个大型新闻门户网站,从这些新闻门户网站中随机抽取了100个新闻网页,发现大部分有效元素的属性值都收录“next”和“对”。", "Next (page)" 等词。一个有效的元素通常绑定到一个有效的事件上,用户点击该元素执行脚本程序或网页跳转以获取更多网页信息,因此其属性值收录JavaScript或URL。对于一个标签,如果没有子标签,则认为它是一个有效标签。综上所述,本系统将属性中收录“next”、“next”等词的标签定义为候选有效标签。
2.2.2 触发元素动态网页采用异步加载技术。当用户点击触发元素时,会触发绑定到有效元素的特定事件,浏览器会执行该事件程序对应的JavaScript动态脚本。因此,需要一个工具来模拟用户的点击操作,而HtmlUnit正好可以解决这个模拟问题。HtmlUnit是一个开源的Java页面分析工具,使用Rhinojs引擎,可以模拟浏览器操作,运行速度非常快。本系统采用全检测扫描算法[13]对有效元素集中的所有元素进行点击操作。2.2.3 触发有效性判断 当动态网页触发有效元素时,会改变DOM树的结构。触发器有效性判断也可以表示为DOM树结构的变化,因此可以比较DOM树结构的相似度作为触发器有效性的指标。由于每次获取下一页,只有网页中的图片和文字信息发生变化,其他杂音、链接等部分基本不变。因此,在判断DOM树的相似度之前,通过正则表达式过滤中文文本信息。何欣等 链接等部分基本不变。因此,在判断DOM树的相似度之前,通过正则表达式过滤中文文本信息。何欣等 链接等部分基本不变。因此,在判断DOM树的相似度之前,通过正则表达式过滤中文文本信息。何欣等
[14] 使用简单的树匹配算法判断DOM树的相似度。是一种限制匹配算法,利用动态规划计算两棵树的最大匹配节点数,得到两棵树结构的相似度;罗斯特等待
[15] 提出了一种比较页面的方法。该方法首先比较各个模块,为模块定位DOM树结构的特征部分。如果确定内容相同,则过滤掉部分信息,将剩余的内容传递给下一个A比较模块,否则可以直接确定两个DOM树不相似。以上两种方法更多是基于DOM树结构,考虑到新闻页面的有效信息在中文文本中。在页面标题的情况下,系统将新获取的网页中文信息与触发前的网页中文信息进行比较。如果只有少量更改,则认为新获取的网页无效,触发器无效;除此以外,获取的网页被认为是有效的,有效元素XPath存储在XPath模板库中。2.3 新闻常用网页信息提取模块新闻常用网页信息提取模块的目标是提取新闻常用网页的正文信息。一般新闻网页的正文结构通常比较紧凑,网页中的图片较少,正文代码中的大部分文字占一行,超链接长度所占的百分比也不大。并且由于行块分布算法对主题网页通用性好、准确率高,所以采用行块分布算法。线块分析算法的思想由哈尔滨工业大学信息检索中心陈欣等人提出。网页文本块的起始行块号Xstart和结束行块号Xend的确定必须同时满足以下条件,这里定义Y(X)为带有行号的行块的长度X 为轴。(1)Ystart> Y(Xt),其中Y(Xt)为线块长度的第一个膨胀点,膨胀点的线块长度必须大于预先定义的阈值。
(2)Y(Xn)不等于0(其中n属于[start+1,start+n]),紧接膨胀点的行块长度不能为0,以消除噪声。
(3)Y(Xm)=0(其中m属于[end,end+1]),下垂点的长度和下垂点后面的行块为0,保证文本提取结束.根据线块分布算法的思想,本文利用Java中的JFreeChart绘制工具,得到如图4所示的线块分布函数折线图,从图4可以看出,内容很多阻止[start=743, end=745], [start=749, end=773], [start=1160, end=1165], [start=1198, end=1205],内容块可能有噪音还没有清除,所以根据新闻页面对于噪音的特性,增加了第四个约束。
(4)Ystart
3 实验测试
3.1 实验准备
测试系统机器环境为:1台台式电脑(CPU为Intel四核2.93GHz,4G内存,硬盘7200r/min,操作系统Win7,10M网速)。系统采用纯Java实现,有效元素路径存储在MySQL5.5数据库中。为了让结果更有说服力,本文设计了一个轻量级主题爬虫,从知名新闻网站(如腾讯新闻、网易新闻、搜狐新闻、新浪新闻等)中抓取网页。作为实验页面的集合。实验主要测试提取新闻正文信息的正确率和速度,而新闻标题是从网页采集器中提取的(一般导航网页,新闻标题和新闻网址是一起的),这里不做处理. 对于动态新闻,提取的文本完全覆盖了真实含义,未过滤的噪声占文本的不到5%为合格。对于静态网页,本文用准确率来表示建议正文信息的准确率:准确率=正确过滤的网页数/网页总数×100%
3.2实验结果表1为系统网页文本提取准确率和在线文本提取率,其中动态网页和静态网页各100个,共1600个网页。表1的测试结果表明,该系统提取静态网页的准确率高于93%,对原创新闻网页正文内容的提取较为完整,而动态网页的提取准确率均在80%以上。报错的原因是不同主题的设计风格不一样,并且存在人们对网页中文字定义的差异等因素,本文算法的结果或多或少会受到影响. 对于正文内容为纯文本的网页,本文算法的准确率非常高。影响本系统准确性的主要因素总结如下: ①动态网页与普通新闻网页的区分是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会作为噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字部分之间的距离会相差较大。①动态网页和普通新闻网页的区别是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会作为噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字部分之间的距离会相差较大。①动态网页和普通新闻网页的区别是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会被当作噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字部分之间的距离会相差较大。
4实验结论本文提出的新闻网页正文提取系统采用行阻塞算法提取网页信息和DOM技术,同时利用动态网页结构的相似性特征实现*敏*感*词*新闻网站新闻正文信息萃取。该系统不依赖大量训练集,能够更准确地提取新闻文本信息。实验结果验证了其有效性。但是,对于英文网页和结构复杂的网页,提取效果并不理想,尤其是对于嵌入了图形信息的普通新闻网页。该方法只能提取文本信息,无法获取网页图片。下一步,我们可以对英文网页优化进行深入研究,
标签:
猜你还喜欢