抓取网页新闻(抽取方法研究遥感影像地物信息智能提取方法(组图))
优采云 发布时间: 2021-11-29 01:08抓取网页新闻(抽取方法研究遥感影像地物信息智能提取方法(组图))
摘要:新闻文本信息的提取对于信息的检索、存储和舆情监测具有极其重要的意义。为了实现新闻信息的正确提取,综合考虑了DOM等几种技术
>> 基于统计的网页文本信息提取方法研究。基于C#的网页文本提取方法研究[J]. 网页文本提取方法研究[J]. 网络新闻采访研究。基于树剪枝的网页文本提取方法研究[J]. 图像语义提取方法研究[J]. 鹰嘴豆总黄酮提取方法研究[J]. 鹰嘴豆总黄酮提取方法研究[J]. DEM提取方法精度研究[J]. 季节性隐藏信息提取方法研究[J]. 面向对象的遥感图像。信息抽取方法研究 采石场信息抽取的多规则面向对象方法研究 遥感数据处理与异常信息抽取技术方法研究 网站结构分析页面信息抽取方法研究 在线新闻研究煤质在线监测方法研究 Maya 模型信息提取研究FAQ 当前位置:#p=1 通过观察验证,属于同一新闻网站的动态网页的内容布局和样式外观比较相似。同时,同一网站的动态网页的URL相似度也很高。这在web开发和网站管理的效率和便利性方面也是非常合理的。因此,URL 相似度用于新闻页面分类。齐等
[9]在URL相似度的计算中使用了Dice系数,并结合使用统计方法完成了URL相似度的测量。该方法从字符串处理的角度出发,由于URL的格式特性,本文在协议、服务器名、域名相同的情况下,利用新闻URL特性来判断动态网页。具体如下: ①如果新闻网址字符在字符串中,如果路径中收录“pic”、“photo”等图片相关的英文字符串,则说明新闻网址为动态网页。例如:人民网、新华网等网站中的网址中收录这些图片字符串;②如果新闻网址的后缀匹配数字或字母的增量,新闻网页是动态网页,如:腾讯、新浪、搜狐、网易、凤凰等网站中的URL后缀,具有很强的格局,不断增加。2.1.2 文档对象模型 文档对象模型(DOM)是用于处理 HTML 和 XML 文档的标准应用程序接口(API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 如:腾讯、新浪、搜狐、网易、凤凰等网站中的URL后缀,格局非常强,数量不断增加。2.1.2 文档对象模型 文档对象模型(DOM)是用于处理 HTML 和 XML 文档的标准应用程序接口(API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 如:腾讯、新浪、搜狐、网易、凤凰等网站中的URL后缀,格局非常强,数量不断增加。2.1.2 文档对象模型 文档对象模型(DOM)是用于处理 HTML 和 XML 文档的标准应用程序接口(API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 比如新浪、搜狐、网易、凤凰等都有很强的格局,数量不断增加。2.1.2 文档对象模型 文档对象模型(DOM)是用于处理 HTML 和 XML 文档的标准应用程序接口(API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 比如新浪、搜狐、网易、凤凰等都有很强的格局,数量不断增加。2.1.2 文档对象模型 文档对象模型(DOM)是用于处理 HTML 和 XML 文档的标准应用程序接口(API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit @1.2 文档对象模型 文档对象模型 (DOM) 是用于处理 HTML 和 XML 文档的标准应用程序接口 (API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit @1.2 文档对象模型 文档对象模型 (DOM) 是用于处理 HTML 和 XML 文档的标准应用程序接口 (API)。它将文档表示为树结构,HTML 标签、属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit 属性或文本被视为树的节点。基于DOM的信息抽取技术利用网页的结构特征,简单高效地从网页中抽取所需的内容。它克服了行分割算法提取新闻标题、发布时间等信息的缺点。所以本文在提取文本信息之前使用了HtmlUnit
[10] 渲染新闻网页获取HTML源代码,然后使用Jsoup中的DOM对象提取新闻标题、发布时间等信息。例如:提取新闻标题时,先提取标签中的标签内容,然后截取“―”、“_”、“/”等标签(内容常用于将标题和新闻来源分开)作为新闻标题。2.2 动态网页信息提取模块Dywebextract模块接受Pretreatment模块的数据,主要功能是动态网页翻页识别和文本信息提取。对于动态网页翻页识别,采用了两种策略:①如果新闻网页有本地url模式模板(系统在初始化时根据各大新闻网站动态网页url的特点添加url模式)或XPath模板(有效元素路径),翻页自行根据url模式模板(url后缀数字增加或字母减少)或触发点击XPath。如果新闻页面的标题相同,则循环翻页,直到没有捕获到有效页面(出现重复页面或死链接);②如果本地没有对应的url模式模板或XPath,获取HTML中的候选有效元素,然后触发,最后通过触发validity过滤掉有效元素。对于文本信息提取,本文利用了同一新闻门户中动态网页高度相似的结构,采用两种策略: ①如果本地有XPath模式模板,则根据XPath模式模板提取文本信息;②如果不是,则使用基于布局相似度的网页正文内容提取方法
[11] 提取身体信息。XPath模式模板库的管理采用时序管理方式。如果 XPath 模式模板库中的某个 XPath 一周未使用,则该模板将被视为无效的 XPath 并被删除。该模块的算法流程如图3所示,下面重点介绍几个主要环节。
2.2.1 替代有效元素的集合。动态网页收录有效元素。有效元素被触发后,会异步生成动态信息,而静态网页不需要触发有效元素来获取信息。但是,动态网页收录许多触发元素(如按钮、文本框、链接等)。有效元素产生的动态信息是有价值的动态信息,无效元素产生的动态信息是无效信息。例如,触发元素仅更改了网页的字体颜色或其他嘈杂部分。在动态网页中,诸如,等标签所代表的元素可能会导致页面发生变化
[12],从而产生有价值的动态信息,因此该系统将有效元素筛选限制为仅和标签。为了进一步缩小有效元素的搜索范围,提高获取页面信息的效率,需要在搜索有效元素之前确定有效元素的标签集。对于本系统,有效元素是可以点击下一页的元素来获取下一页的文本信息。因此,本文统计了腾讯网站等8个大型新闻门户网站,从这些新闻门户网站中随机抽取了100个新闻网页,发现大部分有效元素的属性值都收录“next”和“对”。", "Next (page)" 等词。一个有效的元素通常绑定到一个有效的事件上,用户点击该元素执行脚本程序或网页跳转以获取更多网页信息,因此其属性值收录JavaScript或URL。对于一个标签,如果没有子标签,则认为它是一个有效标签。综上所述,本系统将属性中收录“next”、“next”等词的标签定义为候选有效标签。
2.2.2 触发元素动态网页采用异步加载技术。当用户点击触发元素时,会触发绑定到有效元素的特定事件,浏览器会执行该事件对应的JavaScript动态脚本。程序。因此,需要一个工具来模拟用户的点击操作,而HtmlUnit正好可以解决这个模拟问题。HtmlUnit是一个开源的Java页面分析工具,使用Rhinojs引擎,可以模拟浏览器操作,运行速度非常快。本系统采用全检测扫描算法
[13]、点击有效元素集中的所有元素。2.2.3 触发有效性判断 当动态网页触发有效元素时,会改变DOM树的结构。触发器有效性判断也可以表示为DOM树结构的变化,因此可以比较DOM树结构的相似度作为触发器有效性的指标。由于每次获取下一页,只有网页中的图片和文字信息发生变化,其他杂音、链接等部分基本不变。因此,在判断DOM树的相似度之前,通过正则表达式过滤中文文本信息。何欣等
[14] 使用简单的树匹配算法判断DOM树的相似度。是一种限制匹配算法,利用动态规划计算两棵树的最大匹配节点数,得到两棵树结构的相似度;罗斯特等待
[15] 提出了一种比较页面的方法。该方法首先比较各个模块,为模块定位DOM树结构的特征部分。如果确定内容相同,则过滤掉部分信息,将剩余的内容传递给下一个A比较模块,否则可以直接确定两个DOM树不相似。以上两种方法更多是基于DOM树结构,考虑到新闻页面的有效信息在中文文本中。在页面标题的情况下,系统将新获取的网页中文信息与触发前的网页中文信息进行比较。如果只有少量变化,则认为新获取的网页无效,触发器无效;除此以外,获取的网页被认为是有效的,有效元素XPath存储在XPath模板库中。2.3 新闻常用网页信息提取模块新闻常用网页信息提取模块的目标是提取新闻常用网页的正文信息。一般新闻网页的正文结构通常比较紧凑,网页中的图片较少,正文代码中的大部分文字占一行,超链接长度所占的百分比也不大。并且由于行块分布算法对主题网页通用性好、准确率高,所以采用行块分布算法。线块分析算法的思想由哈尔滨工业大学信息检索中心陈欣等人提出。网页文本块的起始行块号Xstart和结束行块号Xend的确定必须同时满足以下条件,这里定义Y(X)为带有行号的行块的长度X 为轴。(1)Ystart> Y(Xt),其中Y(Xt)为线块长度的第一个膨胀点,膨胀点的线块长度必须大于预先定义的阈值。
(2)Y(Xn)不等于0(其中n属于[start+1,start+n]),紧接膨胀点的行块长度不能为0,以消除噪声。
(3)Y(Xm)=0(其中m属于[end,end+1]),下垂点和下垂点后面的行块长度为0,保证文本提取结束.根据线块分布算法的思想,本文利用Java中的JFreeChart绘制工具,得到如图4所示的线块分布函数折线图,从图4可以看出,内容很多阻止[start=743, end=745], [start=749, end=773], [start=1160, end=1165], [start=1198, end=1205],内容块可能有噪音还没有清除,所以根据新闻页面对于噪音的特性,增加了第四个约束。
(4)Ystart
3 实验测试
3.1 实验准备
测试系统机器环境为:1台台式电脑(CPU为Intel四核2.93GHz,4G内存,硬盘7200r/min,操作系统Win7,10M网速)。系统采用纯Java实现,有效元素路径存储在MySQL5.5数据库中。为了让结果更有说服力,本文设计了一个轻量级的主题爬虫,从知名新闻网站(如腾讯新闻、网易新闻、搜狐新闻、新浪新闻等)中抓取网页。作为实验页面的集合。实验主要测试提取新闻正文信息的正确率和速度,而新闻标题是从网页采集器中提取的(一般导航网页,新闻标题和新闻网址是一起的),这里不做处理. 对于动态新闻,提取的文本完全覆盖了真实含义,未过滤的噪声占文本的不到5%为合格。对于静态网页,本文用准确率来表示建议正文信息的准确率:准确率=正确过滤的网页数/网页总数×100%
3.2 实验结果 表1为系统网页正文提取准确率和在线文本提取率。其中,每个网站有100个动态网页和静态网页,共计1600个网页。表1的测试结果表明,该系统提取静态网页的准确率高于93%,对原创新闻网页正文内容的提取较为完整,而动态网页的提取准确率均在80%以上。错误的原因是不同主题的设计风格不一样,还有人们对网页中文字定义的差异等因素,本文算法的结果或多或少会受到影响. 对于正文内容为纯文本的网页,本文算法的准确率非常高。影响本系统准确性的主要因素总结如下: ①动态网页和普通新闻网页的区分是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会作为噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字各部分之间的距离会相差较大。①动态网页和普通新闻网页的区别是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会作为噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字各部分之间的距离会相差较大。①动态网页和普通新闻网页的区别是根据网址的相似度和网址是否收录标识符来判断的;②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会作为噪声,从而降低提取结果的准确性;③如果在普通新闻网页中嵌入图片,文字各部分之间的距离会相差较大。
4实验结论本文提出的新闻网页正文提取系统采用行阻塞算法提取网页信息和DOM技术,还利用动态网页结构的相似性特征实现*敏*感*词*新闻网站新闻正文信息萃取。该系统不依赖大量训练集,能够更准确地提取新闻文本信息。实验结果验证了其有效性。但是,对于英文网页和结构复杂的网页,提取效果并不理想,尤其是对于嵌入了图形信息的普通新闻网页。该方法只能提取文本信息,无法获取网页图片。下一步,我们可以对英文网页优化进行深入研究,
参考:
[1]ARIAS J, DESCHACHT K, MOENS M F. 从网页中提取与语言无关的内容[J]. 特温特大学, 2009.
[2]_来源中文社区。一般网页文本提取[EB/OL].[20150425].
[3]陈昭,张冬梅. Web信息抽取技术概述[J].计算机应用研究, 2010, 27 (12):44014405.
[4]王琦,唐世伟,杨冬青,等.基于DOM的网页主题信息自动提取[C]. 中国数据库学术会议,2004:17861792.
[5] GUPTA S、KAISER GE、GRIMM P 等。HTML 文档内容自动提取[J]. 万维网互联网和网络信息系统,2005 年,8 (2): 179224.
[6]REIS D C.使用树编辑距离的自动网络新闻提取[C].万维网国际会议.ACM,2004:502511.
[7] 维埃拉 K、席尔瓦 ASD、平托 N 等。一种快速、鲁棒的网页模板检测和移除方法[C].ACM国际信息与知识管理会议.ACM,2006:258267.
[8] 黄文北,杨静,顾俊忠.基于块的网页正文信息提取算法研究[J]. 计算机应用, 2007, 27 (s1): 2426.
[9]QI X, NIE L, DAVISON B D. 测量相似性以检测合格链接[C].Airweb 2007,第三届网络对抗性信息检索国际研讨会,与 WWW 会议同处,加拿大班夫,2007:495 6.
[10] 张家荣.Java开源项目HtmlUnit在浏览器仿真中的应用[J]. 电子制作, 2015 (8): 79.
[11]杨柳青,李晓东,耿光刚.基于布局相似度的网页正文内容提取研究[J]. 计算机应用研究, 2015 (9): 25812586.
[12] 张耀.面向AJAX脚本网络的网络爬取解析技术研究与实现[D]. 沉阳:东北大学,2012.
[13]MESBAH A, BOZDAG E, DEURSEN A V. Crawling AJAX by inferring user interface state changes[C].第八届网络工程国际会议,Yorktown Heights, New York, Usa.2008: 122134.
[14]何欣,谢志鹏. 基于简单树匹配算法的网页结构相似度测量[J]. 计算机研究与发展, 2007, 44 (z3): 16.
[15] ROEST D, MESBAH A, DEURSEN A V. 回归测试 ajax 应用程序:应对动态[C]。International Conference on Software Testing, Verification and Validation, ICST 2010, Paris, France, 2010: 127136. (Editor: Duneng Steel)