抓取网页新闻(基于条件随机场(CR)的新闻网页主题内容自动抽取方法)

优采云 发布时间: 2022-02-18 02:05

  抓取网页新闻(基于条件随机场(CR)的新闻网页主题内容自动抽取方法)

  广西师范大学学报:自然科学版 Jo tura 2011 基于海南大学 CR 信息科学与技术学院,海南海口 57022 8) 针对目前新闻网页主题内容提取方法很少使用的问题针对网页块之间的相关性特征,本文提出了一种基于条件随机场(CR)的新闻网页主题内容自动提取方法。该方法首先将要提取的网页解析成DOM,经过过滤、剪枝和压缩处理,然后按照一定的启发式规则将DOM树切割成DOM树。块被转换成数据序列,然后定义CR特征函数提取每个网页块的状态特征和相邻块之间的类别转移特征,利用CR模型对数据序列进行标注,实现网页主题内容的提取。实验表明,该方法对新闻网页主题内容的提取具有较高的准确性和较强的适应性,并且可以引入块间相关性特征来改进新闻网页主题内容的提取。关键词:eb信息提取;条件随机场;网页分类 图块分类代码:391 文档识别码:文章 代码:100126600 (2011) 0120138205 在网页设计过程中,人们通常以块来组织网页内容,如此多的Web信息提取方法采用基于块的策略自动提取新闻网页的主题内容:首先,利用标签的分布规律、层次关系、布局特征或视觉特征将网页分成若干块。网页,然后使用启发式规则分析主题内容。然而,这些方法大多在识别网页块所属的类别时只分析网页块本身的特征,很少利用网页块之间的关联特征。网页中标签的布局特征或视觉特征,然后使用启发式规则分析主题内容。然而,这些方法大多在识别网页块所属的类别时只分析网页块本身的特征,很少利用网页块之间的关联特征。网页中标签的布局特征或视觉特征,然后使用启发式规则分析主题内容。然而,这些方法大多在识别网页块所属的类别时只分析网页块本身的特征,很少利用网页块之间的关联特征。

  现有新闻网页的结构越来越复杂,很多网站甚至在新闻网页主题内容的段落之间插入广告内容,以至于我们在切网页时往往只能选择较小的片段. 花费。虽然这样做可以更好地区分噪声内容和主题内容,但生成的网页块通常较小,有时仅依靠块本身的特征很难识别块的类型。以利用相关属性。鉴于此,本文在网页切分的基础上,提出了一种基于条件随机场(co random field)的新闻网页主题内容自动提取方法。在这个部分,我们首先采用DOM树来表示文档的层次组织结构,然后通过DOM树的深度优先搜索实现网页文本内容的自动切分,然后将得到的切分转换为数据序列。构建DOM 我们使用开源工具NekoH TM 标记及其嵌入标记所标记的文本内容附加到相应的标记节点。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。然后通过DOM树的深度优先搜索实现网页文本内容的自动切分,然后将得到的切分转换为数据序列。构建DOM 我们使用开源工具NekoH TM 标记及其嵌入标记所标记的文本内容附加到相应的标记节点。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。然后通过DOM树的深度优先搜索实现网页文本内容的自动切分,然后将得到的切分转换为数据序列。构建DOM 我们使用开源工具NekoH TM 标记及其嵌入标记所标记的文本内容附加到相应的标记节点。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。然后将得到的分割转化为数据序列。构建DOM 我们使用开源工具NekoH TM 标记及其嵌入标记所标记的文本内容附加到相应的标记节点。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。然后将得到的分割转化为数据序列。构建DOM 我们使用开源工具NekoH TM 标记及其嵌入标记所标记的文本内容附加到相应的标记节点。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。ekoHTM 构建的原创 DOM 树收录大量与网页结构和布局以及要提取的内容无关的节点。,为了后续处理的方便,需要对这些节点进行过滤、剪枝和压缩。其标注内容;此外,标记内容为空的标签节点也被删除。

  规则 如果一个节点的子树不收录标签节点<div>、<p>、<td le>,则删除该节点的所有子树,但保留该节点附加的原创文本内容。规则 如果一个节点是一个单分支节点,它的子节点替换它的位置,然后删除它。收稿日期:2010212229 基金项目:国家自然科学基金委(60863001) 通讯联系人:湖北武汉,讲师,海南大学,硕士。E 2mil:zh angcy@.cn 1994-2013中国学术期刊电子出版社. 版权所有. 上述规则一一处理后,原DOM中90%的节点被删除,决定网页布局的节点,如<div <table>,被保留。 DOM中的DOM树搜索块除了根节点< #do cum en,每个节点对应网页中的一个文本内容块。一个文本内容块是否需要进一步切分,其实就是判断DOM树中对应的节点是否需要进一步的深度搜索。我们将不需要进一步深入搜索的节点称为区块节点,具体判断规则如下: 规则 如果节点是叶子节点,则判断该节点为区块节点。

  规则 如果节点为非叶子节点,则其子节点的标签属性不相同,或者其子节点的标签属性相同但子节点不是<table>、<div>或<tr>标签节点,该节点被判断为区块节点。使用上述规则可以更好的区分主题内容和噪声内容,但是块的数量很大。为了减少后续 CR 标注的工作量,我们适度合并分割的块。具体合并规则如下: Rule r > 相邻块节点互为兄弟,标签属性相同或其中一个节点为链接节点Point<a>,另一个节点为text node<# tex text块节点的内容被合并。规则如果相邻两个块节点的文本内容中锚文本的比例大于55%,则可以通过文本内容块转换树的深度优先搜索得到一个文本内容块序列。为了方便以后通过CR特征函数对网页块进行特征提取,我们需要对从section得到的每个文本内容块进行转换。设整个网页的所有文本内容块的非锚文本字符(英文单词,下同) tplen 文本内容块的非锚文本字符个数就是文本内容块的个数 转换规则为: rule lenm), 本块的非锚文本整个网页中非锚文本的比例 lenmƒtp len 和该块在网页中的位置比例 le> 标记的内容块,插入"

  将条件随机场建模的新闻网页切成块序列后,将主题内容的提取转化为网页块的类别识别问题。在本文中,网页块的类别被视为 CR 的输出状态,以及 CR Ty 等人提出的对有序数据进行标记和分割的条件概率。该模型可以克服HM的独立性假设问题和最大熵马尔可夫模型的标注偏差问题。它是最简单和最常用的统计机器学习模型线性随机场,是目前处理序列数据分割和标记问题的最佳统计机器学习模型。一种形式,本文使用的一种形式,用于实现文本内容序列的标注。假设相应的状态序列,其中 Erkov 是独立的,通过无向边连接成一个线性链。在给定观测序列的条件下,参数为特征函数,由用户根据具体任务定义;1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版 参数,一般通过培训学习来估算;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。由无向边连接成线性链。在给定观测序列的条件下,参数为特征函数,由用户根据具体任务定义;1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版 参数,一般通过培训学习来估算;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。由无向边连接成线性链。在给定观测序列的条件下,参数为特征函数,由用户根据具体任务定义;1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版 参数,一般通过培训学习来估算;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。参数为特征函数,由用户根据具体任务定义;1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版 参数,一般通过培训学习来估算;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。参数为特征函数,由用户根据具体任务定义;1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版 参数,一般通过培训学习来估算;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。自然科学版参数,一般通过训练学习来估计;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。自然科学版参数,一般通过训练学习来估计;一般来说,可以通过动态规划算法Vite rb来选择最高的条件概率来计算。建立问题的L个方面:观察序列的表示;状态序列的表示;特征函数的定义;模型参数的估计。

  在本文中,观察序列是网页分割转换后生成的数据序列;状态序列中的状态值代表网页块的类别,我们将网页块分为以le>标签标记的内容块)、标题块(文本的标题块)(文本内容块) ) 和噪声块,分别在标注时用状态值表示;本节将讨论特征函数的定义和模型参数的估计。一旦L建模工作完成,公式(2)就可以用来标注网页块序列了。特征函数定义 CR模型通过特征函数的定义来描述观测值与状态值和状态值的对应关系。提取块序列及其特征之间的转移关系。特征函数定义是否正确将直接影响CR特征函数提取块序列和类别序列之间的特征。21211 块属性状态特征函数网页块的锚文本比例、非锚文本在整个网页中的比例、在网页中的位置、块在网页中使用什么样的标签,以一定程度上反映了内容块属于什么类别,所以我们的块属性 status 的特征函数定义为:其中 id 是特征编号。下面以训练内容块“TA 0C 0S0”和测试内容块“A 9C 0S9”为例,说明块属性状态特征函数的用法。后者通过函数提取的特征是:在训练得到的特征库中不存在,所以取值为21212。​​初始状态特征函数网页块序列一般以标题块开头。为此,我们定义了初始状态特征函数来表示该特征是初始块状态特征。这样,对网页块序列的第一个块进行特征提取。作为例子来说明块属性状态特征函数的用法。后者通过函数提取的特征是:在训练得到的特征库中不存在,所以取值为21212。​​初始状态特征函数网页块序列一般以标题块开头。为此,我们定义了初始状态特征函数来表示该特征是初始块状态特征。这样,对网页块序列的第一个块进行特征提取。作为例子来说明块属性状态特征函数的用法。后者通过函数提取的特征是:在训练得到的特征库中不存在,所以取值为21212。​​初始状态特征函数网页块序列一般以标题块开头。为此,我们定义了初始状态特征函数来表示该特征是初始块状态特征。这样,对网页块序列的第一个块进行特征提取。我们定义了初始状态特征函数来表示这个特征是初始块状态特征。这样,对网页块序列的第一个块进行特征提取。我们定义了初始状态特征函数来表示这个特征是初始块状态特征。这样,对网页块序列的第一个块进行特征提取。

  21213 End-state feature function 网页块序列一般以噪声内容块结束。为此,我们定义了一个结束状态特征函数,将该特征表示为结束块状态特征,从而从网页块序列的最后一个块中提取特征。21214 一阶传递特征函数网页块序列具有一定的块间关联特性。另外,考虑到本文采用CR,我们定义一阶传递特征函数ransf ransf来表示该特征是传递特征。参数估计模型参数估计是通过学习标记的训练集来估计每个特征函数的权重。另一方面,它通过特征函数估计从训练集中提取的所有特征的权重。让标注好的训练集为对应的状态序列,一般通过人工标注完成;序列的总数。在此基础上,对数似然函数为:对于训练集,为了避免参数估计过拟合的问题,我们引入高斯先验迭代求解公式 GS 等方法,收敛速度比GS。1994-2013中国学术期刊电子出版社。版权所有。. 本文通过人工标记一定数量的网页块序列形成训练集,然后通过本节定义的特征函数从训练集中提取所有状态特征,然后使用L2B GS方法估计每个状态特征的权重。

  实验与结果分析 首先,根据百度国内新闻提供的链接,网络机器人抓取了500个新闻页面作为实验网页集,然后使用实验结果:共切出11 302个页面块,每个页面平均被切割成2个2.我们的分块算法分割准确率高,只有26个分块将噪声分块切割成与标题分块或正文分块相同的分块,平均分块错误率为23%。手动修正错切网页后,将500个网页按照本节介绍的方法转化为500个数据序列,将100个序列手动标注为CR训练集,剩余400个未标注序列作为CR 数据序列。测试集。CR被测量,而具体计算公式为如lock sM anu lock sCR lock sCR lock sM anu lock sCR lock sM anu lock sM anu lock sCR CR le block、title block、text block、noise block和所有类型的web blocks。从测试结果看:CR对各类网页块都有较高的准确率;le块整体识别效果最好,噪声块次之,标题块最差;当训练集的大小达到80多个序列时,识别效果较好,相对稳定。500个新闻网页自动切分实验结果 Tab. Segmen ta ionre sults ewspage 标题块 文本块 噪声块 错误块总数 平均错误率 ƒ% 平均块数 498 522 706 57611 302 26 2322. 基于 CRF 选项卡。

  本文选取的 500 个新闻页面来自 175 个国内新闻网站,其中作为 CR 训练集的网页来自 50 个网站,作为 CR 测试集的网页来自 157 个网站,只有32 个站点和训练集。源站点相同,表明我们的方法对不同网站的网页提取具有更好的适应性。1994-2013 中国学术期刊电子出版社。版权所有。广西师范大学学报:自然科学版142题块,文本块识别率明显低于le块和噪声块,出现这种现象的主要原因是有的题块没有标注<h1>标签,有的文本块的字符数量很少,这使得它们与一些嘈杂的训练块非常相似。本文采用DOM树搜索对网页进行分割,并在此基础上提出了一种基于CR的新闻网页主题内容自动提取方法。实验表明,该方法对新闻网页主题内容的提取具有较高的准确性和较强的适应性,并且引入块间相关特征可以提高新闻网页主题内容的提取。缺点是网页的标题块和文本块的检索率有待进一步提高。网页分块转换和基于CR标签树的网页区域划分与搜索方法[J Computer Journal, 2005, 32 Xu Hongbo. 基于块的网页信息解析器的研究与设计[J 计算机应用, 2005, 25 9742976.刘晨曦, 吴阳阳. 一种基于块分析的网页去噪方法[J 广西师范大学学报: 自然科学版, 2007, 25 计算机应用, 2007, 27 杨志浩. 基于网页框架和规则的网页噪声去除方法[J Computer Engineering, 2007, 33 (19) 2762278.ZH EN i2hua, i2rong.late2indep enden based roceed ing iona Conference icia Telligence. enlo新闻,2007:15072151<

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线