武汉网站搜索引擎优化(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究)

优采云 发布时间: 2021-09-21 05:01

  武汉网站搜索引擎优化(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究)

  相关性是搜索引擎优化的重点。但是对于关联搜索引擎的工作原理,我相信大多数SEOER缺乏对关联性的理解。杭州四友多年来一直致力于搜索引擎技术中的相关性排名技术的研究。作为一个专业的SEO,有必要研究搜索引擎算法,虽然我们不可能知道所有的搜索引擎算法。但只需要我们主流搜索引擎技术的方向,就可以知道搜索引擎时代的脉搏

  相关性排名技术的出现主要是由搜索引擎的特点决定的。首先,现代搜索引擎可以访问的网页数量已经超过10亿。即使用户只搜索一小部分内容,基于全文搜索技术的搜索引擎也可以返回数千页。即使这些结果页面是用户所需要的,用户也不可能浏览所有的页面,因此将用户最感兴趣的结果页面放在搜索引擎用户的前面必然会提高用户的满意度。其次,搜索引擎用户的专业检索能力通常非常有限。在最常见的关键词检索行为中,用户通常只是几个单词。例如,Spink和其他人对excite和其他搜索引擎的近300名用户进行了实验性调查,发现人均输入的搜索词是3.34一个。国内一些学者也有类似的结论。调查发现,约90%的用户输入2~6个中文搜索词,其中大部分为2个词,约占58%,其次是4个词(约18%)和3个词(约14%)。事实上,搜索词太少并不能真正表达用户的检索需求,用户通常不进行复杂的逻辑构造。只有少数用户执行布尔逻辑检索、限制检索和高级检索5.24%的检索公式收录布尔逻辑运算符。国内一些学者的研究结果也表明,约40%的用户不能正确使用现场检索或二次检索,约80%的用户不能正确使用先进的检索功能,甚至发现用户缺乏学习复杂检索技能的动机。大多数用户希望搜索引擎能够自动为他们构建有效的检索方法。由于过去在线检索中缺少搜索者,用户的实际检索行为与用户的理想检索行为之间确实存在差距,检索结果不令人满意也就不足为奇了。由于这一特性,搜索引擎必须尽可能地将最期望的网页结果放在网页结果的前面,这就是网页相关性排序算法在搜索引擎中非常重要的原因

  目前,相关性排序技术主要包括以下几个方面:一是在传统信息检索技术的基础上,主要利用关键词本身在文档中的重要性来衡量文档与用户查询需求之间的相关性,例如网页中关键词的频率和位置。一般来说,检索到的web文档中收录的查询关键词越多,相关性越大,对该关键词的区分度越高;同时,出现在重要位置(如标题字段)的查询关键词比出现在文本中的查询更相关。二是超链分析技术。使用这种技术的代表性搜索引擎包括谷歌和百度。与前者相比,它将网页的重要性作为搜索结果相关性排序的依据。从设计理念的角度来看,更注重第三方对网页的识别。例如,具有大量链接网页的网页是一个被广泛认可的重要网页,而基于关键词位置和频率的传统方法只是网页自我识别的一种形式,缺乏客观性。最后,还有一些其他方法,例如用户定义的排序规则。北京大学的天网ftp搜索引擎采用这种排序方法,允许用户选择特定的排序指标,如时间、大小、稳定性和距离,对结果网页的相关性进行排序。另一个例子是收费排名模式,它广泛应用于大型搜索引擎中,具有门户网站作为搜索引擎主要盈利手段的特点。然而,它担心影响搜索结果的客观性。这种模式不是他们的主流排名模式,只是作为补充显示在付费搜索栏中

  关联排序技术主要依赖于超链接分析技术。超链接分析技术可以提供多种功能,其主要功能是解决结果网页的相关性排序问题。它主要利用网页之间的各种超链接方向来分析网页之间的引用关系,并根据网页链的数量来计算网页的重要性权重。一般认为,如果网页a有一个指向网页B的超链接,则相当于网页a投票给网页B,即a认识到网页B的重要性。要深入了解超链接分析算法,根据链接结构,我们可以将整个网页文档集视为一个有向拓扑图,其中每个网页构成图中的一个节点,网页之间的链接构成节点之间的有向边。根据这一思想,我们可以根据每个节点的进入和退出程度来评估网页的重要性

  对于超链接分析技术,代表性的算法主要是page设计的PageRank算法和Kleinberg创建的hits算法。其中,PageRank算法在实际使用中的效果优于HITS算法,这主要是由于以下原因:第一,PageRank算法能够一次性、离线、独立于查询地对网页进行预计算,得到网页重要性的估计值,然后结合具体用户查询中的其他查询索引值对查询结果进行排序,从而节省了系统查询的操作成本;第二,PageRank算法使用整个网页集进行计算。与HITS算法不同,它容易受到局部链接陷阱的影响,产生话题漂移现象。因此,这项技术现在被广泛应用于许多搜索引擎系统中。谷歌搜索引擎的广泛成功也表明,以超链接分析为特征的网页相关性排序算法正变得越来越成熟

  PageRank技术基于这样的假设:对于web中的web页面a,如果有指向web页面a的链接,a可以被视为一个重要的web页面。PageRank认为网页中链接的数量可以反映网页的重要性。然而,在现实中,人们往往对网页的各种超链接设计不严格。网页的许多超链接纯粹是为了网站导航和商业广告等目的而制作的。显然,这种网页对它所指向的网页的重要性没有多大贡献。然而,由于该算法的复杂性,PageRank不考虑网页超链接内容对网页重要性的影响,但使用了两种相对简单的方法:首先,如果网页链接页面太多,则其识别每个链接页面重要性的能力将会降低;第二,如果一个网页的重要性由于其链接页面的数量较少而降低,那么它对链接页面重要性的影响也相应降低。因此,在实际计算中,网页a的重要性权重与网页a中链的重要性权重成正比,与网页a中链的外链网页数成反比。由于网页a的重要权重未知,因此需要重复计算每个网页的重要权重。换句话说,网页的重要性决定并取决于其他网页的重要性

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线