搜索引擎优化毕业论文(搜索引擎的一个重要组成部分网络爬行虫,它是本文的研究重点)
优采云 发布时间: 2021-12-28 23:07搜索引擎优化毕业论文(搜索引擎的一个重要组成部分网络爬行虫,它是本文的研究重点)
摘要:当今的互联网拥有海量的信息。如何从这海量的信息中获取与用户查询相关的重要信息资源非常重要。在这种背景下,个性化搜索引擎应运而生。但是,当前搜索引擎返回的搜索结果数量非常多。有时很难从这么多结果中找到有用的信息。如何获得更好的搜索结果,更好的帮助用户通过好的初始网址找到你感兴趣的信息,是本文的重点。搜索引擎的一个重要组成部分是网络爬虫,它是搜索引擎不可或缺的一部分。本文从爬虫开始,重点介绍爬虫的爬取起点的初始URLS的形成,并通过初始URLS的个性化达到用户个性化的目的。基于此思路,本文在获取初始URLS方面做了一系列工作,取得了以下研究成果: 1.本文提出了网络爬虫初始URLS候选集形成的基本思路和方法。根据用户输入的查询条件,及时从知名搜索引擎(AltaVista、DirectHit、Excite、Google、HotBot、Lvcos、Yahoo等)的搜索数据库中返回一些网页作为初始URLS集候选集。具体来说,在实现方面,本文讨论了通过调用谷歌搜索引擎提供的Web Service Api函数,可以让谷歌返回大量的URL,作为后续研究工作的起点。2. 本文基于有序概念格概念的理论基础,提出通过设置访问次数的下界来获取用户的频繁访问路径,并根据频繁路径在访问次数中出现的次数对这些路径进行排序。用户的访问路径,然后合并用户。给出了通过历史点击获取用户兴趣URLS集合的方法,并给出了其实现算法,并通过实例分析证明了该方法的有效性。3、在本文的研究中,提出了一种基于数据挖掘技术的*敏*感*词*URLS集合的形成方法。用户兴趣数据库是通过挖掘用户的浏览历史和日志形成的。1中的候选集用于分词,形成网页文本向量。通过计算与用户兴趣向量的相似度,得到优化后的兴趣*敏*感*词* URLS 集合。作为下一次爬取的*敏*感*词*,也可以直接返回到用户URLS集合中供用户点击。4. 最后,本文开发了一个网络爬虫程序(MySpider),在西华大学校园网的实验环境中验证了基于数据挖掘技术的*敏*感*词*URLS集合形成方法。通过与谷歌、百度、Learnable Crawler 实验、MySpider 搜索结果对比,用户满意度和网页召回率均高于其他搜索引擎。同时通过实验得出“MySpider通过3次递归爬取回馈用户是充分、合理、有效的”结论。