抓取网页新闻(新闻网页抽取方法)
优采云 发布时间: 2021-11-26 18:15抓取网页新闻(新闻网页抽取方法)
基于熵的新闻网页提取方法研究朱宏灿龙朝阳(湘潭大学管理学院湘潭411105) [摘要为了减少或消除新闻中大量非主题信息的干扰网站,提出新闻网页提取方法利用基于熵的计算和DOM树的知识从新闻网页中提取主题文档和相关链接[关键词信息提取信息块DOM [分类] number Entropy Based Approach NewsArticle Extraction from ebPage Zhu Hongcan ongZhaoyang anagement School niversity, iangtan411105, China)实验几个新的 ebsites 显示实际。
搜索引擎仍会搜索此信息。导致存储和计算量增加的eb页面的内容提取是搜索引擎中非常重要的部分。目前,要从半结构化网页中提取信息,需要建立第一个信息单元。. 可以对分割后的信息块进行信息提取或其他处理,减少引擎的搜索空间,结果更加准确。[文献]提出了一种提取新闻网页文本的方法,但该方法仅适用于网页中所有文本信息都放在一个表格中的情况。实际新闻页面中与话题相关的信息还包括标题、相关链接等。基于文档 ISDOM 方法,本文提出了一个更合适的新熵计算公式,应用信息论和页面的DOM树等相关知识。根据信函新闻页面的DOM树结构观察,新闻页面一般有以下内容(1)与新闻主题相关,包括新闻标题、新闻正文、时间记者、链接到与主题相关的相关文档等)。(2)与新闻话题无关的信息包括网站模板定义的导航栏、广告信息等出现在同一网站不同页面的信息块。信息块指示页面的主题和其他相关信息。这些信息块的集合和相应的关联构成了页面的信息结构,是新浪网页内容的一部分。信息块中收录的内容为指南,信息块中收录的内容为新闻正文。块中收录的内容是与主题相关的链接信息。区块中收录的内容是与话题无关的广告链接。
它们通常是一组具有较长链接文本的密切相关的链接兄弟,收录标签名称信息、属性以及一对标签之间的所有字符(表示为innertext)。根据DOM的定义,节点内文包括以节点为根节点的子树中的所有字符。页面根节点的内部文本包括 shift 标记后的所有单词除外。页面上的文字可以分为两类:一类是链接文字,一类是链接后的文字。本文从根节点的内文中提取特征词。特征词是对中文文档有意义的关键字或词组。处理中文文档后,提取对应的关键词。
每个特征词的熵值计算公式如下: nkEN wijlognkwij Dk 为网站 wijlognwij,其中wij 1页面部分DOM树信息结构是基于熵的新闻网页提取算法.网站中新闻网页2) 相关话题信息块提取、冗余信息块去除、从DOM树中提取信息 开始时从网上抓取网页,基于DOM构建。必须先对网页进行预处理。把它变成一个标准化的网页。标准化的网页可以根据其中的 HTML 标签轻松地将其表示为一棵树。DOM树中的每个节点根据定义表示页面中的一个标记ij就是整个网站页面。, 该公式考虑了不同网站中使用的不同模板。由于网页内容因模板不同而具有很强的主观性,因此在一个网站中重复出现的冗余信息块可能不会在其他网站中出现。该公式定义了本文中的特征词ti ti。) 表示特征词 ti 的重要性。对于用户来说,特征词分布在越多的页面上越均匀,收录的信息越少,观点的内容就越少。这是网页的链接描述文档与其原创文档之间必不可少的区域。1)原创文档 链接文本中没有与链接文本匹配的特征词,这并不意味着链接文本最大( ENk:链接文本用于医学和健康,所链接的网页可能会介绍某种疾病的预防和治疗。此时AP2)在原创文档中。链接文本与较少的特征词匹配。此时AP表示链接文本中收录的信息量较小,显然与实际不符。根据以上分析,本文将链接文字改为max(ENk 83333ATI max(ENk 66667term weighted value.
根据定义,公式之间存在如下关系。如果tj均匀分布在每个网站 tj中,信息量小,如果tj均匀分布在一个网站的每个网页上,计算两个公式,此时, tj 信息 tj) 较低;而公式2计算出的权重较大(特征词tj具有较大的特征词信息,两个公式的计算都是根据提取的特征词信息,计算出三种特殊的Content Info rm ionIndex II和扩展信息)表示信息块中收录的信息量链接文本值(Anchor Text Index,ATI)表示链接文本的重要性结构信息索引,SII) 指出DOM树中每个节点的子节点分布的内容信息值。计算每个特征词的熵值后,计算节点innertext所有特殊词的熵值的平均值作为节点N的内容信息值,避免除以0。ATI计算量反链接文本中收录的信息,反映超链接链接的页面是否与主页面相关。如果是ATI,链接文本和链接的网页收录大量信息,与主题相关度高。网站中每个页面上均匀分布的广告链接和导航栏中的菜单链接的ATI值通常很小。与AP相比,如果匹配词为term1,则不再需要计算ATI。结构信息值SII的计算是基于节点子节点特征值的分布。但是,有一些带有信息的 HTML 标签,例如 SCRIPT 标记为垃圾邮件标签,应该删除。
将节点 N 的特征值定义为 fi children(N) 作为节点的非垃圾子节点的集合。对于子节点为 n0 fi 特征值的 SII,定义如下 SII(fi wijlogm wij term 节点内文本特征词数,节点 N 内容信息值表示点的子树中收录的信息量。链接文本值当人们浏览网页,他们通过超链接的语义信息,一步步的获取自己想要的信息。显然,网页之间的超链接一方面引导网页,另一方面,也反映了网页的浏览过程创建者认为链接的文本收录指向下一个文本的有价值的信息。在文献中,定义了AP页面的相关性。定义如下:nkchildren fi(N) 大于或等于fi SII (fi N) 的值越高,节点的所有子节点的特征值fi 越相似网站。许多内容和链接文本是自动生成的,信息非常相似。这些信息块的根节点特征的SII值非常大。信息块的提取。在这个阶段,每个部分的AP特征的术语链接文本和链接网页上的特征词。M 是匹配词的数量。通过观察,检索方法包括: 一个基本假设是连接文本是用来描述它指向的文档,而不是用来描述它所在的当前文档。根据这个假设,网页的链接描述文档描述不是作者' 自己对网页内容的描述。,但是这个网页上其他网页的作者描述的主要50聚合过程是一个从叶子节点到根节点的自下而上的过程。
第一个特征fi的聚合值的计算如njchildren所示。显示的标记节点的内文长度是典型的聚合特征。同样的算法也可以得到ATI的信息聚合树。在信息覆盖树上计算SII提取信息块就是第一次提取的输出信息块的个数。对于新闻网页,由于新闻网页由新闻内容信息块和与主题相关的链接信息块组成,ATI的特征是由聚合ST为SII的阈值。ST 的值可以控制信息块的粒度和数量。根据 SII 的定义,如果 ST 的值较大,结构约束更严格,提取节点的子节点更相似。该算法的目的是输出信息量最大的信息块集合。C II (N II 阈值 ATI 阈值 ST, TA TC 输出:最大信息块集合。构建有序栈 S3 信息块数 Infob fA 值 N 最大的节点弹出 SII(N, fA N 为根节点 信息块类型为文本块 endif 信息块为主题链接块 endif 10) 将节点 N 插入候选集 11)else 将节点 N 的子节点放入候选集stack 12)endi 1 3)end 14) 提取出来的k个节点作为子树的根节点,即15)
网页的链接描述文档是对其他网页作者描述的主要内容的概述,不计算与链接网页匹配的特征词数量不会影响算法S1WISDOM: ebIntrap age Informative Structure iningBased DocumentObject模型。IEEE Tansactions DataEngineering: 2005, 17 自动分割 eb 页信息块。中文信息处理学报2004,18,关毅。基于统计的网页文本信息提取方法研究[J]. 中文信息处理学报 2004,18 张敏,高剑锋 eb 信息检索。计算机研究与发展2004, 41 226 (作者邮箱: ) 51 欢迎订阅《现代图书馆与信息技术》