动态网页抓取(动态分块网页主题信息准确自动提取仿真崔彦青(内蒙古医科大学计算机信息学院))
优采云 发布时间: 2021-09-16 13:17动态网页抓取(动态分块网页主题信息准确自动提取仿真崔彦青(内蒙古医科大学计算机信息学院))
-04动态块网页主题信息精确自动提取模拟崔延庆(内蒙古医科大学计算机信息学院,呼和浩特,内蒙古)010110)摘要:针对提取精度低的缺点,当前自动提取动态块网页主题信息的方法错误率高、耗时长,采用混合加权法在行预处理的基础上自动提取动态块网页主题信息,通过构建预处理后动态分块网页主题信息的层次树模型,确定网页主题信息的内部关系。采用二元集合序列描述目标提取的动态块网页主题信息,计算不同网页主题信息文本对整个网页主题信息的贡献。采用空间矢量模型描述动态块网页主题信息,仿真结果表明,该方法的耗时可以控制在0.1S结果表明,该方法能够实现动态块网页主题信息的准确、高效提取关键词:动态块网页;主题信函信息;自动提取中文图纸分类号:TlW311.13. 文件识别码:bddynamicsegmentation网页主题信息准确性与自动提取模拟崔彦清(内蒙古医科大学计算机信息研究所,呼和浩特内蒙古0101摘要:目前,该方法已建立,错误率高10,中国) 在本文中,混合权重方法被用于从动态分区网页中自动提取主题信息。在对动态分区网页的主题信息进行预处理的基础上,层次树删除了动态分区的主题信息EDWebPageExtraction并计算不同观点信息文本对整个动态分区EDWebPageTopico的贡献度,确定了观点信息与网页的内在关系。此外,还使用了一个序列来描述主题信息。最后,空间向量模型用于描述主题信息分区网页的特征。同时,使用混合方法从空间向量模型中提取主题信息分区网页的主题动态。Simulationresultsprovethatthetimeconsumptionofproposedmethodiscontrolledwithin0.1S.同时,采样数据提取的准确率为[GH]。在这里,所提出的方法可以实现从动态分区dwebpage中准确高效地提取观点信息・ 关键词:动态分区网页;主题信息;自动抽取网络正在高速发展并成为越来越大的资源信息库
除介绍外,中国网民数量也在与日俱增,互联网应用的普及度也在与日俱增。据最新统计,截至2017年底,全世界约有越来越多的人。人们经常在网上获得近10亿的有效网站,而且是目前是世界上最大的搜索引擎信息资源。然而,随着互联网的发展,阻止网页数量的爆炸性增长。例如,“谷歌”这些数据显示了从这样一个巨大的动态块Web资源信息数据库中及时准确地找到人们需要的信息是多么的重要和困难。动态块网络基金项目:国家自然科学基金项目( 51167010)页面主题信息提取方法的优劣直接影响互联网信息资源采集的顺利进行日期:2018年7月11日修订日期:2018年9月5日针对这种情况,文件[3]提出了一种基于融合机制的动态块网页主题信息自动提取方法,该方法通过了四个步骤“动态阻止网页模板库匹配-基于网页模板库匹配的信息过滤-动态阻止网页分类-自动提取网页主题信息“实现动态块网页主题信息与节点上下文关联的计算公式为contextaicorre weasel state s71u.)=输入Lin face KCO和unt Li(StuI)(4)分段网页主题信息独立于模板和相关模板的有机集成,所需的动态分段网页主题信息自动从融合后的新模板库中提取
在公式中,stue.表示stu树中的父节点。这种方法的提取精度不高。文献[4]提出了一种基于LDA模块假设LC.和CC的动态块网页主题信息自动提取方法,分别表示动态块网页主题信息和类型,该方法利用stu dom树节点的局部相关阈值和上下文相关阈值提取动态块网页主题信息LDA模型将Internet上每个动态块网页的主题信息混合,使用剪枝器判断动态块网页的主题信息和stu-dom树节点模块,分别计算动态块网页的主题信息与每个文档段落的关联度。如果满足以下公式:(5),表示状态分区网页的主题相似度,根据相似度计算结果,前几条相似度高的信息与stu-dom树节点局部相关,动态分区网页结果可自动提取为页面主题信息,Extral错误主题信息在该方法中的作用,如果满足以下公式:(6)),则表明动态块网页的主题率较高。文献[5]提出了一种基于kmeans聚类算法的动态块网页主题信息提取方法,该方法与stu dom树节点上下文相关,并能自动提取动态块网页主题信息,该方法利用动态块网页的网页主题信息提取主要内容和key特征词,并构造标记的LDA模型以形成文档相关性(stu.)≥ LC。(5)a主题特征向量,并使用kmeans聚类算法对HⅡfcorrefn进行分类£ 我“我”£ 模型中每个CO的y(stu)
)≥复写的副本。(6)文档分类,提取每个文档集中网页的主题信息,这种方法提取时间长,提出了一种基于混合加权的动态块网页主题信息自动提取方法3.1基于预处理的动态分块网页主题信息预处理为了保证提取的准确性,采用二进制解析器将网页解析为DOM树,并计算DOM叶集序列来描述要提取的动态块网页主题信息,从而减少准子节点中收录的网页主题信息和非叶节点中收录的网页主题信息的时间消耗odes提取动态块网页主题信息,并通过设置阈值变量来判断DOM树中节点收录的网页主题信息量及其相对于子节点收录的网页主题信息量。2.通过改变动态块网页主题信息自动提取原理,计算动态块网页主题信息与stu-dom树节点相关性之间的局部相关性和上下文相关性,分别设置动态块网页主题信息与stu-dom树节点相关性之间的局部相关性阈值和上下文相关性阈值`6Je动态块网页和stu-dom树节点,使用剪枝器判断动态块网页的主题信息与stu-dom树节点的相关性,并根据相关性计算结果和相关性阈值提取动态块网页的主题信息。7O,完成d动态块网页动态块网页主题信息预处理`
解析器用于将网页解析为DOM树,并分别计算DOM树叶节点中收录的网页主题信息量和非叶节点中收录的网页主题信息量DOM树叶节点中收录的eb页面主题信息可以通过使用DOM树叶节点中收录的字数和标点符号的贡献值来表征。计算公式如下:主题信息的自动提取原理。权重=文本长度+点权重假设contentlength和linkcount分别表示stu dom中相应子树中动态分区网页的字符总数和链接总数;stuc表示stu.Tree的第j个子树;linkcount(stu.)表示stu。树中的链接总数;contentlength(stu.)表示StuI树的总字符数。stu dom树节点的主题信息相关性是指stu dom树节点与动态阻止网页主题信息之间的相关性,主要包括两部分:动态阻止网页主题信息之间的局部相关性and节点和