搜索引擎优化毕业论文(,主题搜索引擎被称为第四代搜索引擎搜索引擎搜索引擎)
优采云 发布时间: 2022-02-13 15:11搜索引擎优化毕业论文(,主题搜索引擎被称为第四代搜索引擎搜索引擎搜索引擎)
【摘要】 随着互联网技术的飞速发展,海量的网络信息与人们获取真正需要的信息的能力之间的矛盾越来越突出,这需要搜索引擎技术的支持。然而,面对互联网资源的指数级增长,采集在索引规模、更新速度、个性化需求等方面都面临诸多挑战,一般的搜索引擎已经不能满足人们对个性化的需求。 、专业化 随着信息检索服务需求的不断增加,建立针对特定领域的专题搜索引擎已成为搜索引擎新的发展方向,专题搜索引擎被称为第四代搜索引擎。话题爬虫的研究,在主题搜索引擎中占据基本核心地位,已成为网络数据挖掘领域的研究热点。本文主要关注主题爬虫。通过分析主题爬虫的相关算法,在Heritrix的基础上扩展了下载逻辑,使得爬虫采集的页面更贴近主题。主题爬虫是一种特殊的网络爬虫,它的主要目标是在有限的时间内尽可能多地爬取与设定的主题相关的网页,尽可能少地爬取不相关或质量低劣的网页。主要研究工作包括: 1、对主题爬虫的基本结构和相关理论进行了研究,深入分析了主题爬虫的相关技术和关键算法,并设计并实现了基于模拟退火算法搜索策略的主题爬虫——SAS-Crawler。②。在计算页面的主题相关性方面,通过分析页面的结构,根据不同标签在页面中的位置不同,赋予不同的权重,使得页面的主题相关性计算更加准确。③。在预测链接 URL 所指向的目标页面与主题的相关性时。综合考虑各种启发式信息。如链接文字、链接上下文信息、父页面的主题相关性、入站链接数等。由于同时考虑了内容和链接结构的影响,既避免了“话题漂移”,又增加了搜索空间。④。在链路选择方面,本文采用基于模拟退火机制的链路选择策略。由于主题网页的“隧道”现象,不相关网页之后的相关网页不易被搜索到。也就是说,即使当前页面与主题无关,该页面中链接指向的目标页面也可能与主题相关。通过使用模拟退火机制的链接选择策略,可以很好地限制局部最优,并且可以下载更多与主题相关的网页。⑤、研究了开源网络爬虫Heritrix,并在Heritrix的基础上做了一些改进。新增话题建立模块、页面话题相关度计算模块、链接评价模块。修改了链接搜索策略,采用基于模拟退火算法的链路搜索策略。实现了本文提出的SAS-Crawler。并通过实验对本文的主题爬虫进行了测试,并给出了实验和结果分析。