Nutch主题模型提取网页中心词,然后计算相关度,
优采云 发布时间: 2021-06-12 18:06Nutch主题模型提取网页中心词,然后计算相关度,
[摘要]:随着网络技术的发展和网络资源的增加,传统搜索引擎存在返回结果、更新周期长、查询歧义等问题。越来越多的用户希望能够快速有效地找到特定领域内与主题相关的信息,一般的搜索引擎已经不能满足用户的专业搜索需求。鉴于垂直搜索引擎的专业化、针对性和高效性,它们已成为当今的热门研究课题。 Nutch是一个开源的搜索引擎系统,具有透明度高、排序结果公平、程序设置灵活、运行稳定等优点,因此选择Nutch平台作为研究的基础。本文首先介绍了垂直搜索引擎的研究现状,然后分析了搜索引擎的基本工作原理和开源搜索引擎Nutch的工作流程,然后研究了经典的排序模型和排序算法,为研究奠定了基础。以及后续排序算法基础的改进。本文分析了Nutch现有排名算法存在的问题,提出了一种改进的网页评分排名算法。针对排名结果没有考虑主题相关性的问题,本文提出使用LDA主题模型提取网页中心词,然后计算中心词与查询的相关性,从而有效地衡量查询和文档的相关性。此外,PageRank算法通过增加主题相关性得分进行改进,使其适应主题领域的应用场景。在上述研究工作的基础上,本文设计了一个旅游学科领域的垂直搜索引擎系统,该系统分为三个模块:data采集、索引和检索。在data采集模块中,通过Nutch爬虫抓取网页,然后解析抓取到的不同格式的文档。在索引模块中,首先构建旅游主题词库,然后将数据采集module采集文本进行中文切分,通过LDA计算文本的主题相关性,最后是与相关的网页该主题已编入索引。改进的排序算法在搜索模块中实现。最后,通过比较TopN的准确率和排序效果,分析改进系统的性能。