基于链接结构的搜索引擎排序算法的改进算法WCT-PageRank算法

优采云 发布时间: 2021-06-10 22:27

  基于链接结构的搜索引擎排序算法的改进算法WCT-PageRank算法

  [摘要]:由于互联网信息的快速增长,面对纷繁复杂的网页,如何准确找到自己需要的信息成为人们非常关心的问题。搜索引擎的出现为信息搜索提供了有效的工具。搜索引擎最终是为用户服务的,所以如何更好的为用户服务,促使搜索引擎不断优化。面对海量的网络信息,用户通常会选择搜索结果排名靠前的网页进行浏览,因此搜索引擎的服务质量很大程度上取决于网页排名算法。因此,目前大多数搜索引擎的优化都是搜索引擎排名算法的优化。目前应用最广泛的基于链接结构的排名算法是PageRank算法和HITS算法。 PageRank算法与HITS算法相比,由于其计算效率更高,计算数据量更大,具有一定的优势,因此在实践中更常用。但PageRank算法在迭代计算过程中只考虑网页的链接结构,存在主题转移、偏重旧网页、权重分配不合理等缺点。在深入研究PageRank算法的基础上,本文以PageRank算法的不足为切入点,提出了改进算法WCT-PageRank算法。改进算法在传统PageRank算法中引入了网页权重分布因子、网页相关性因子、网页时间因子,提高了搜索效果。 Nutch 作为一个优秀的开源项目,采用插件机制,架构灵活。因此,论文的实验部分基于Nutch开源项目搭建了一个开发平台,并在其上进行二次开发。针对其中文分词效果较差的问题,增加了IKAnalyzer分词器,平台上集成了PageRank算法和WCT-PageRank算法。对基于Nutch的定制搜索引擎进行检索和测试,并对实验结果进行对比分析。实验结果验证了本文提出的WCT-PageRank算法比PageRank算法有更高的准确率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线