搜索引擎优化毕业论文(本文上的信息以几何级数的速度膨胀的网页排序算法)
优采云 发布时间: 2021-12-07 15:04搜索引擎优化毕业论文(本文上的信息以几何级数的速度膨胀的网页排序算法)
【摘要】互联网上的信息以几何速度膨胀。为了从浩瀚的信息海洋中找到有用的信息,人们使用搜索引擎来搜索所需的信息。雅虎、谷歌、百度等是比较有代表性的搜索引擎。但是这种通用的搜索引擎并不能满足人们对专题信息的需求。因此,有必要研发一种面向特定领域的专业搜索引擎来检索专业领域的信息。本文设计了一个纺织专业搜索引擎系统,对系统中的重要模块进行了详细设计,并对模块中的关键技术进行了研究。本文研究内容如下:1、 给出了纺织专业主题爬虫的详细设计,以提高主题爬虫的效率。一方面,网络爬虫爬取的URL通过协调器按照一定的规则进行调度,避免了网络爬虫负载不均衡造成的资源分配不均;另一方面,在扫描网页源代码获取爬取的URL的同时,设计目标网页内容过滤/预测模型,确定要采集的页面,对网页中收录的超链接进行剪切和归类,并进行剪枝按照直接丢弃相关链接采集和不相关链接的原则,减少网络蜘蛛页面采集的工作量。2、 改进了话题爬虫所涉及的文本分类技术。当向量空间模型表示网页文本时,文本集合中特征项的位置分布的差异会导致权重不同的问题。针对这个问题,本文改进了特征项权重的计算公式,以更好地反映网页的结构特征。传统K近邻分类方法的一个致命问题是,如果训练集中的数据量很大,这种方法很难实现全局最优搜索。为了加速K个最近邻的搜索,本文采用了一种基于K最近邻的快速文本分类方法,使得在海量数据集中进行快速有效的分类成为可能。< @3、改进了检索器中的网页排名算法。现在网页排名算法主要围绕PageRank算法和HITS算法进行研究。本文在研究了这两种经典的排序算法后,提出了一种基于文本聚类的网页排序方法。它希望实现两个目标:一是越重要的网页在结果列表的前面;第二个是前几个。页面结果列表的信息覆盖面比较广,可以帮助用户在搜索过程中明确自己的搜索目标。本文提出了一种基于文本聚类的网页排名方法。它希望实现两个目标:一是越重要的网页在结果列表的前面;第二个是前几个。页面结果列表的信息覆盖面比较广,可以帮助用户在搜索过程中明确自己的搜索目标。本文提出了一种基于文本聚类的网页排名方法。它希望实现两个目标:一是越重要的网页在结果列表的前面;第二个是前几个。页面结果列表的信息覆盖面比较广,可以帮助用户在搜索过程中明确自己的搜索目标。