如何使用户关注的网页排列在搜索引擎的排序技术

优采云 发布时间: 2021-07-06 01:08

  如何使用户关注的网页排列在搜索引擎的排序技术

  搜索引擎的排序技术

  摘要:本文简要介绍和比较了搜索引擎目前使用的排序算法,包括词频位置加权排序算法、链接分析排序算法,并着重介绍了PageRank算法和HITS算法的思想及其比较优势和劣势。

  关键词:搜索引擎;排行;网页排名;命中

  1 前言

  谷歌和百度的崛起很大程度上是由于它们使用了比以前的搜索引擎更好的排序技术。由于人们通常只关注搜索结果的前 10 或 20 项,因此将与用户查询结果最相关的信息排在结果的前排尤为重要。例如,.jp、.de 和.edu 域名下的网页通常比.com 和.net 域名下的网页更有用[1]。如何让用户关注的网页在搜索结果中排名靠前,让各家搜索引擎公司不断完善优化方向。笔者将通过阅读论文和网络资料总结介绍几种主要的排序算法:词频位置加权排序算法、链接分析排序算法。

  2 词频位置加权排序算法

  这类技术是在传统信息检索技术的基础上发展起来的,即用户在网页中输入的搜索词的频率越高,搜索词的位置越重要,则该网页被认为与本次搜索相关。一个词的相关性越高,它在搜索结果中出现的位置就越高。 InfoSeek、Excite、Lycos等早期搜索引擎都采用了这种排序方式。

  2.1 词频加权

  词频加权是以用户提供的搜索词在网页中出现的次数作为确定网页相关性权重的依据。词频加权方法包括绝对词频加权、相对词频加权、逆词频加权、基于词判别值的加权等。对于单词搜索引擎,可以通过简单地计算一个词在网页中出现的频率来给出​​权重。对于具有逻辑组装功能的搜索引擎,必须使用其他加权方法。因为在使用组合搜索查询时,搜索结果与搜索查询中的每个搜索词相关,并且每个搜索词在所有网页中的总频率是不同的。如果按总重量排序, 会造成结果无关紧要。这可以通过多种其他方式解决。例如,利用相对词频加权的原理,可以统计大量网页,为所有网页中出现频率较高的词分配一个较低的初始值。相对而言,所有网页中出现频率较低的词被赋予较低的初始值。更高的权重 [2]。

  2.2 词位权重

  通过为网页中不同位置和布局的词分配不同的权重,可以根据权重确定搜索结果和搜索词的相关程度。字的位置包括页面标题元素、页面描述关键字元素、正文标题、正文内容、正文链接、logo等。布局包括字体、字号、是否加粗或者强调等。比如理解排序技术,搜索“排序技术”时,有两个结果,一个标题是“搜索引擎的排序技术”,另一个文章的标题是“Web Information Retrieval”,但内容有部分 说到搜索引擎的排名技术,显然第一个结果更相关。 “排名技术”这个词应该在第一个结果中给予更大的权重。

  2.3 此类算法的优缺点

  这种方法的主要优点是使用方便,易于实现,最成熟的发展基本上是目前所有搜索引擎排名核心技术的基础。但是,由于现网内容的质量无法保证,为了使网页在搜索引擎中排名靠前,在网页中添加了相同背景色的图层,并填写了大量的热门关键词,当人们来浏览网页时完全被查看。不,但搜索引擎可以在索引时找到它。这个问题在一定程度上得到了改善,但并没有完全根除。

  3 链接分析排名

  链接分析排序算法的思想其实来源于纸质文献索引机制,即一篇论文或文献被引用次数越多,其学术价值就越高。同一个网页类比,如果一个网页的链接越多,该网页的重要性就越高。链路分析算法主要分为随机漫游模型,如PageRank算法;基于Hub和Authority的相互强化模型,如HITS及其变体;基于概率模型,如 SALSA;基于贝叶斯模型,如贝叶斯算法及其简化版本。下面将分别介绍这些算法。

  3.1 PageRank 算法

  Google 搜索引擎有两个重要功能,可以让您获得高度准确的结果。首先,它利用网络的链接特征来计算网页的质量排名,即PageRank;其次,它使用链接来改善搜索结果 [3]。

  简单的PageRank原理即如图1所示的那样,从网页A导向网页B的链接被看作是对页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性。可是 Google 不单单只看投票数(即链接数),对投票的页面也进行分析。重要性高的页面所投的票的评价会更高。

  原创PageRank算法:PR(A) = (1-d) + d (PR(T1)/C(T1) +… + PR(Tn)/C(Tn)))<//p

p其中: PR(A):网页A的PageRank值; PR(Ti):链接到页面A的网页Ti的PageRank值; C(Ti):网页Ti的出站链接数; d:阻尼系数,0/p

p在算法的第二个版本中:PR(A) = (1-d) / N + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn) ))/p

p这里 N 是 Internet 页面的总数。该算法2与算法1并没有完全不同。在随机冲浪模型中,算法2中页面的PageRank值是点击多个链接后到达该页面的实际概率。因此,互联网上所有网页的PageRank值形成一个概率分布,所有RageRank值之和为1。/p

p因为 PR(A) 取决于链接到网页 A 的其他网页的 PageRank 值,而其他网页的 PR 值也取决于指向该网页的网页的 PR 值,所以这是一个递归过程。似乎需要无穷无尽的计算才能获得网页的PR值。根据参考文献5中的实验,递归计算了网络中3.220亿个链接,发现经过52次计算可以得到收敛。稳定的 PageRank 值,在计算一半链接的 PageRank 值时,进行了 45 次计算。通过实验发现,递归计算次数和链接数呈对数比例增加,即要计算N个链接的PageRank值时,只需进行logN次递归计算即可得到稳定的PageRank值[5] ./p

p3.2 Hits 算法/p

p在PageRank算法中,链接被平等对待,每个链接贡献相同的权重。在现实生活中,有些链接指向广告,而有些链接指向权威网页。可以看出,均匀分布的权重不符合实际情况。所以康奈尔大学的Jon Kleinberg博士在1998年首先提出了Hits算法。/p

pHITS算法对网页质量的评价结果​​体现在它赋予每个网页的两个评价值上:内容权限(Authority)和链接权限(Hub)。/p

p内容权限与网页本身直接提供的内容信息的质量有关。引用的网页越多,内容权限越高;相应地,链接权限与网页提供的超链接的质量有关。相关的。引用高质量内容的页面越多,链接的权威性就越高。根据关键字匹配将查询提交给传统搜索引擎。搜索引擎返回的网页很多,前n个网页作为根集。包括根集合中页面所指向的所有页面,再包括根集合中指向页面的页面,从而扩展了基本集合。 HITS算法输出一组具有较大Hub值的网页和具有较大权限值的网页[6]。/p

p与PageRank等实用算法不同,HITS算法更多的是一种实验性的尝试。从表面上看,HITS算法需要排序的页面数量很少,但由于需要根据内容分析从搜索引擎中提取根集并扩展基本集,这个过程需要相当长的时间,而PageRank算法表面上看,处理的数据量远远超过HITS算法,但是因为在用户查询的时候计算量已经由服务器独立完成,所以用户无需等待。为此,从用户的等待时间来看,PageRank算法应该优于HITS算法。简短[7]。/p

p3.3 其他链接分析和排序算法/p

pPageRank 算法基于用户对网页随机前向浏览的直觉,HITS 算法考虑了Authorative 网页和Hub 网页之间的增强关系。在实际应用中,用户大部分时间是向前浏览网页,但在很多情况下,他们会返回浏览网页。基于上述直观认识,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for Link-Structure Analysis)算法,该算法考虑了用户返回浏览网页的情况,并保留了随机漫游PageRank 和 HITS 中网页的 Authoritive 分类与 Hub 的想法取消了 Authoritive 和 Hub 之间的相互加强关系[8]。/p

p艾伦鲍罗丁等。提出了一种完整的贝叶斯统计方法来确定 Hub 和 Authoritive 网页。假设有M个Hub网页和N个Authority网页,可以是同一个集合。每个Hub网页都有一个未知实数参数,表示有超链接的总体趋势,还有一个未知的非负参数,表示有链接到Authority网页的趋势。每个权威网页 j 都有一个未知的非负参数,代表 j 的权限级别。统计模型如下。 Hub 网页 i 链接到权威网页 j 的先验概率为:P(i,j)=Exp(+)/(1+Exp(+))。当 Hub 网页 i 和权威网页 j 之间没有链接时,P(i,j)=1/(1+Exp(+))。从上面的公式可以看出,如果非常大(说明Hub网页i有很高的指向任何网页的倾向),或者总和很大(说明i是一个高质量的Hub,j是一个高质量的Authority网页),那么i ->j的链接概率比较大[9]。

  4 其他排序技术

  除了以上两类排序算法,还有其他排序方式,比如:竞价排名(竞价排名是百度等一些搜索引擎公司推出的一种以价格确定排名的在线推广方式。但是,投标人信息的真实性需要严格筛选,否则用户对搜索引擎的信任将被灰色行业所利用[10])。通过用户反馈提高排序的准确性,通过理解增加排序的相关性,通过智能过滤减少减少。排序结果的重复性等

  5 结束语

  综上所述,在目前谷歌等搜索引擎中,排序方式非常复杂,需要综合考虑多种因素,而不是单一的上述算法。我个人认为未来搜索引擎会变得更加人性化,搜索结果会根据用户喜好进行排序和过滤。此外,特定领域的专业搜索引擎将逐步发展,例如金融和体育的专业搜索。引擎。相信未来浏览器功能越来越强大,搜索引擎的影响力会越来越大。

  参考文献:

  [1] Dennis Fetterly、Mark Manasse、Marc Najork、Janet Wiener:网页演变的*敏*感*词*研究,In:Proc.of the 12th Int'l World Wide Web Conf.New York:ACM Press ,2003.669-678...

  [2] 杨思洛.搜索引擎排序技术研究[J].现代图书馆与信息技术,2005,(01).

  [3] S.Brin 和 L.Page,“大型超文本 Web 搜索引擎的剖析”,发表在第七届国际万维网会议论文集(WWW7)/Computer Networks,阿姆斯特丹, 1998

  [4] Page L, Brin S, etc. PageRank 引文排名:为网络带来秩序[J].斯坦福数字图书馆工作论文,1998,(6):102-107.

  [5] T. 有 liwala。 PageRank 的高效计算。 1999-31技术报告,1999.

  [6]

  [7] 何晓阳,吴强,吴志荣:HITS算法与PageRank算法对比分析。信息学报,2004 年第 2 期

  [8]

  [9] 朱伟、王超、李军等. Web 超链分析算法研究。计算机科学, 2003, 30(1)

  [10]常路,夏祖奇;几种常用的搜索引擎排序算法。图书情报工作,2003 年第 6 期

  ———————————————————

  版权声明:本文为CSDN博主“arthur0808”原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原出处链接和本声明。

  原文链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线