搜索引擎主题模型优化(基于传统向量空间模型相似性的主题网络爬虫算法分析研究)

优采云 发布时间: 2021-12-28 18:08

  搜索引擎主题模型优化(基于传统向量空间模型相似性的主题网络爬虫算法分析研究)

  摘要:当今科学技术日新月异,新知识、新技能的发展不断加快,使得网络上的数据资源呈指数级增长。当用户想从互联网的海量数据中获取数据资源时,传统的搜索引擎逐渐做不到。因此,准确获取所需信息成为搜索行业的研究热点,而垂直搜索引擎的专业化和精准化大大提高了相关信息的检索能力。主题网页爬虫作为垂直搜索引擎的核心,主要负责采集

与主题相关的网页内容。主题网络爬虫的性能直接影响搜索引擎的服务质量。现在,话题网络爬虫的研究方向主要集中在搜索策略和相似度计算两个方面。本文从这两个方面着手研究如何提升爬虫性能。具体工作如下:(1)爬虫搜索策略分析与研究。首先分析基于链接的搜索策略HITS算法的优缺点,重点分析HITS算法。忽略新的问题针对旧网页和话题转移,提出了一种改进算法。 of-degree.度链接关系的权重函数。(2) 基于传统向量空间模型相似度的算法分析。在传统的向量空间模型中,特征词是文本中词的机械匹配,其权重的计算仅依赖于词频和逆文档频率。本文采用向量空间模型的改进TF-IDF算法,根据特征词为文本的不同位置分配不同的权重。同时,为了解决特征项数与语义关系的矛盾,创建主题词典、词库和收录词典,并根据特征词所属的词典进行赋值。最后,将改进的HITS算法与向量空间模型相似度判断相结合,得到一种新的爬行方法。本文重点介绍上述改进的主题爬取算法对不同主题的网页实验。实验结果表明,改进后的主题爬虫算法有效提高了对应网页的准确率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线