搜索引擎优化毕业论文(基于网络链接结构的经典网页排序算法的学习研究)

优采云 发布时间: 2021-09-03 13:01

  搜索引擎优化毕业论文(基于网络链接结构的经典网页排序算法的学习研究)

  [摘要]:人类社会进入电子信息时代以来,互联网产业迅猛发展,网络信息资源逐渐成为人类获取信息的重要途径。这使得搜索引擎现阶段面临前所未有的挑战,技术改革创新势在必行。面对各种杂乱无章的信息数据,能否准确检索出满足用户需求的重要信息,成为评判搜索引擎好坏的重要指标之一。为此,网页排名算法作为影响搜索引擎质量的一个因素受到了广泛关注。同时,面对互联网的飞速发展,海量的信息和数据仍在爆发式增长,传统的中心化搜索引擎逐渐显现出疲态。分布式搜索引擎解决了集中式搜索引擎在可扩展性、网络信息覆盖和实时性等方面的局限性。改变系统功能在一台主机上实现的集中式结构,将搜索引擎功能的实现交给互联网上的几台服务器,由中心节点控制,形成分布式搜索结构。分布式搜索引擎的研究越来越受到搜索引擎运营商的重视,势必成为未来搜索引擎的发展方向。本文通过对基于网络链接结构的经典网页排名算法——PageRank算法的研究,针对该算法的权威值和忽略用户随机行为的缺陷,提出了一种改进的PageRank算法。新算法借鉴马尔可夫链转移概率的思想,利用网页在竞争网页中的入度与用户二次搜索概率的比值来构造转移概率,从而根据网页的权威值进行分配到转移概率。同时,本文设计了基于Hadoop和Lucene开源框架的分布式搜索引擎模型,将HDFS分布式文件系统和Map/Reduce计算模型等分布式计算技术引入到传统搜索引擎中,将模型系统划分为分布式爬虫。 、分布式索引器和分布式检索器三个模块实现了搜索引擎的分布式设计。采用Master/Slave结构,一个Master节点将任务分发给各个Slave节点,完成功能的实现。 Master节点控制和协调Slave节点上报的“心跳记录”。改进后的分布式搜索引擎模型系统对PC性能要求低,具有更好的扩展性、实时性和更高的网络覆盖率。此外,本文将改进的PageRank算法应用到分布式系统中以优化检索质量,使PageRank算法与分布式搜索引擎得到更好的结合。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线