搜索引擎优化毕业论文(搜索引擎是信息检索必备的工具,也是一门非常适用的技术,)

优采云 发布时间: 2021-09-27 10:28

  搜索引擎优化毕业论文(搜索引擎是信息检索必备的工具,也是一门非常适用的技术,)

  【摘要】:搜索引擎是信息检索必不可少的工具,也是一项非常适用的技术。虽然各大搜索引擎不断完善和发展自己的技术,但仍然不能满足用户的需求。随着用户数量的增加,随着互联网信息量的不断增加,对搜索引擎提出了更高的要求。如何从海量信息中快速准确地获取有价值的信息成为各大搜索引擎研究的课题。本文采用Lucene搜索工具包实现搜索引擎的索引和检索过程,并结合PageRank算法改进页面排名算法;针对Nutch系统中WebCrawler的不足,爬取策略,重复数据删除技术和更新技术得到了改进;分词算法采用基于最大匹配算法和概率相结合的分词算法;采用K-means聚类算法实现网页文本聚类,提高搜索结果的相关性;综合运用各种技术,实现一个完整的搜索引擎系统。本文所做的工作如下: 第一个一、实现了基于Lucene的全文索引检索过程,设计了一种最大匹配算法和概率相结合的分词算法。二、使用Nutch系统中Web Crawler的基本模型,选择PageRank算法作为网络蜘蛛的爬取策略,使用基于URL和基于内容的去重算法去除重复页面,并使用Quartz作业调度系统实现定时调用网络爬虫,完成本地页面的批量更新,进一步提高了信息的实时性。针对PageRank和Lucene排序算法的不足,第一个三、对PageRank算法和Lucene自己的排序算法进行了改进,综合使用这两种算法来实现页面排序,使得排序结果更加合理;实现网页文本聚类,采用K-均值聚类算法对检索结果进行聚类,提高检索结果的相关性。完成了本地页面的批量更新,进一步提高了信息的实时性。针对PageRank和Lucene排序算法的不足,第一个三、对PageRank算法和Lucene自己的排序算法进行了改进,综合使用这两种算法来实现页面排序,使得排序结果更加合理;实现网页文本聚类,采用K-均值聚类算法对检索结果进行聚类,提高检索结果的相关性。完成了本地页面的批量更新,进一步提高了信息的实时性。针对PageRank和Lucene排序算法的不足,第一个三、对PageRank算法和Lucene自己的排序算法进行了改进,综合使用这两种算法来实现页面排序,使得排序结果更加合理;实现网页文本聚类,采用K-均值聚类算法对检索结果进行聚类,提高检索结果的相关性。使排序结果更加合理;实现网页文本聚类,采用K-均值聚类算法对检索结果进行聚类,提高检索结果的相关性。使排序结果更加合理;实现网页文本聚类,采用K-均值聚类算法对检索结果进行聚类,提高检索结果的相关性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线