搜索引擎优化毕业论文(基于视觉特征的网页信息抽取技术进行学习和研究具体内容)
优采云 发布时间: 2021-12-07 15:05搜索引擎优化毕业论文(基于视觉特征的网页信息抽取技术进行学习和研究具体内容)
[摘要] 随着互联网的飞速发展,互联网上的信息资源呈爆炸式增长,通用搜索引擎的瓶颈越来越暴露。为了更快、更准确地定位人们想要的信息,近年来产生了。垂直搜索引擎。它是一个面向特定领域的搜索引擎,提供比一般搜索引擎更精细的搜索结果。因此,有必要从网页中提取与字段相关的信息。本文主要研究垂直搜索引擎中的网页信息提取技术。具体内容包括以下几个方面:(1)基于视觉特征的网页分析技术。在基于视觉特征的页面分割方法(VIPS)中,在学习和研究的基础上实现了VIPS算法的原型系统,并应用该系统对需要提取的网页进行分割,为后续提取提供数据准备。(2)基于分割重要性和2D CRFs的Web对象信息抽取。本部分针对Web对象信息抽取的过程,提出了一种基于块重要性和2D CRFs的Web对象信息抽取方法。首先,块重要性使用模型(BIM)进行视觉分割,对获取的网页块进行重要性测试,定位收录对象信息的目标块;然后针对目标网页块的二维结构特征建立二维CRFs模型,实现对象信息的提取;最后通过对比实验验证了该方法的可行性。.(3)基于改进的HCRFs的Web对象信息抽取。HCRFs是一种可以用于Web对象抽取的统计模型,但HCRFs并没有完全描述Web对象元素之间的条件依赖关系。本文提出了一种改进的分层条件随机域模型LL-HCRFs和增加对象元素之间长距离依赖的方法,并针对新添加的依赖改进原创参数估计算法。最后,通过LL-HCRFs和Liner-CRFs和HCRFs的对比实验证明了这种改进的模型在提取Web对象方面有很好的效果。(4)“搜米”垂直搜索引擎。论文最后一部分设计并实现了一个餐饮领域的垂直搜索引擎原型系统“搜米”,详细介绍了原型系统的各个功能模块.