2136韩金华(南京信息学院)搜索引擎的定义和分类
优采云 发布时间: 2021-06-25 20:132136韩金华(南京信息学院)搜索引擎的定义和分类
2136 搜索引擎算法概述 韩金华(南京信息工程学院,江苏南京 210000) 摘要:简述搜索引擎的定义和分类,系统描述经典链接搜索引擎的排序算法及其优势关键词:搜索引擎;PageRank算法;HITS算法 中文图书馆分类号:TP39 文档识别码:A文章号: 1671-7597 (2011)1020136-01 0 介绍中最重要的站点链接集合;一个好的权威网页就是有很多好的Hub网页指向的网页。Hub之间这种相互加强的关系权威网页是互联网上信息的泛滥和信息检索 环境的变化使人们成为海量信息Hub/Authority方法的sic思想。在世界范围内获取准确信息的难度增加了。作为一种必要的信息检索工具,搜索引擎让2.3.1 HITS算法描述得到根集S:对于使用Hub/Authority方法的搜索者用户来说,在一个信息中快速找到最准确的信息非常重要大量返回的结果。该算法基于关键字匹配将查询q提交给传统搜索引擎。搜索引擎回传作为搜索引擎的一项关键技术非常有用,也是提高网络服务质量的热点。对于多个网页,取前n个网页作为根集S; S 中的网页数量少而精,更多 1 权威网页的搜索引擎分类和定义。
搜索引擎[1]是指在互联网上主动搜索万维网信息并自动获取扩展集T的能力:通过将S引用的网页添加到S,将引用S的网页添加到扩展 S 并提供查询一类服务网站。成一个更大的集合T。从搜索引擎的工作原理来看,目前搜索引擎分为三种: ①全文搜索构造二部有向图SG:T中的Hub网页作为顶点集Vl,权威网页是顶点搜索引擎,用蜘蛛程序抓取网页信息存入数据库,然后索引,使用集合V2,两个集合中网页的超链接为边集合E,形成一个二分有向图SG =(V1 V2 用户从索引数据库搜索并返回结果,如谷歌、百度。②目录搜索E)。引擎依赖网站管理员主动向搜索引擎注册,进行人工分类,进行操作:对于V1中任意一个顶点v,用h(v)表示网页v的Hub值,配对为各级目录,如雅虎。 ③元搜索引擎只提供搜索引擎界面。根据key V2中的顶点u,用a(u)表示网页u的Authority值。开始时,h=a=1,用多个搜索引擎搜索词,然后按照引擎设置的规则返回结果。边集上点的入出度统计累加,然后归一化,直到a(u),2个经典链接排序算法h(v)收敛。 2.1 超链接分析。在互联网上,网页之间存在复杂的链接;如果放网2.3.2 HITS的优缺点。
HITS 算法是一种基于 Web 结构挖掘的重要搜索引擎。将页面视为点,将超链接视为有向边,形成有向图。所以在这个庞大的有向算法中,因为综合考虑了页面的权威性和中心性,所以是一个比较合理的图。我们可以看到网页之间的链接关系:有向边密集的地方,就是评估网页排名的排序算法。这意味着这些网页密切相关并共享共同的主题;点之间的差异程度也大不相同;从 S 生成 T 的时间成本太大;网页中一些不相关的链接,直接导致对高点的更多引用。那么它的重要性就更高了。因此,可以通过网页的HITS算法的不准确度来判断网页的重要性。 ② 主题漂移;因为base set中收录了一些对查询主题的引用(链接)来判断网页的重要性,这就是链接分析。对于比较经典的不相关但联系紧密的网页,比如赞助商链接,算法会认为形成的区域是PageRank算法和HITS算法。更重要的是,这些偏离原主题的页面会在结果中返回。 2.2 PageRank 算法。 PageRank 是由 serseyBrin 等人提出的。 1998 年 [2]。 2.3.3