搜索引擎优化毕业论文(分布式搜索引擎是一种结合了分布式计算技术的新型信息检索系统)

优采云 发布时间: 2022-02-13 15:07

  搜索引擎优化毕业论文(分布式搜索引擎是一种结合了分布式计算技术的新型信息检索系统)

  摘要:分布式搜索引擎是一种结合分布式计算技术和全文检索技术的新型信息检索系统。它改变了人们获取信息的方式,使人们更有效地获取信息。现在已经渗透到网络生活的方方面面,被誉为互​​联网的第一站。目前的搜索引擎系统大多具有相同的结构——集中式结构,即系统的所有功能模块都集中部署在一台服务器上,这直接导致系统对服务器硬件性能的要求很高,同时,系统的稳定性也很差。,可扩展性低的缺点。为了克服上述缺点,需要购买极其昂贵的大型服务器来满足系统要求,但并不是每个人都能负担得起这么高的成本。此外,在传统的信息检索系统中,很多都是使用比较原创的字符串匹配方法来获取搜索结果。这种搜索方式虽然实现简单,但是当数据量比较大时,搜索效率很低,导致用户无法及时获取有效信息。以上两个缺点给搜索引擎的推广带来了很大的挑战。为了应对这一挑战,在搜索引擎系统中引入了分布式计算和倒排文档全文检索技术。基于对当前几种分布式搜索引擎系统的分析,本文总结了现有系统的优缺点,针对现有系统的不足,提出了一种基于Hadoop的分布式搜索引擎。主要研究工作是改进传统搜索引擎的功能模块,详细分析爬取、索引和搜索过程中的步骤,并将非顺序步骤进一步分解为数据计算和数据合并两部分。同时应用Map/Reduce编程模型的思想,将数据计算任务封装到Map函数中,将数据合并任务封装到Reduce函数中。改进后的搜索引擎系统可以部署在廉价PC组成的Hadoop分布式环境中,具有较高的响应速度、可靠性和可扩展性。这非常符合分布式搜索引擎的技术要求,因此本文采用Hadoop作为系统分布式计算平台。此外,系统采用基于倒排文档的全文检索技术,构建以关键词为单位的倒排索引模块,结合TF-IDF和PageRank算法改进网页评分策略,优化搜索结果。最后详细分析了应用Map/Reduce编程模型实现系统模块过程中遇到的问题及解决方法。搭建了一个4节点的小型分布式搜索引擎系统,通过对网络资源的爬取、索引和检索获得实验数据,并测试了系统的可靠性和可扩展性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线