搜索引擎优化名词解释(什么是搜索引擎倒排索引算法?索引的工作原理和机制)

优采云 发布时间: 2021-12-26 13:20

  搜索引擎优化名词解释(什么是搜索引擎倒排索引算法?索引的工作原理和机制)

  今天阿峰SEO就跟大家分享一些关于搜索引擎倒排索引算法的事情。为什么要谈倒排索引?因为当用户搜索一个词时,返回的搜索结果页面是经过倒排索引和一系列算法过滤后排序的结果。关键词排名不就是大家在SEO中苦苦追求的水平吗?

  简单来说,搜索引擎的索引其实就像我们平时看书时的一个目录,为了让大家更快的找到自己需要的内容。比如一个导航网站,其实就是互联网上一个小索引的索引结构的一个案例。会有一些具体的分类,比如新闻、电影、小说、图片等,方便用户快速找到自己需要的内容。

  索引也是搜索引擎中最核心的技术之一,因为在海量的网页中,我们如何才能更快更准确的找到用户查询的搜索意图。因为基本上所有搜索引擎的目标都是为用户提供更全面、更快、更准确的搜索结果,这也是搜索引擎的价值所在。

  那么第一点就是通过蜘蛛抓取页面来实现,更快的通过“索引技术”来实现,倒排索引就是其中的一部分,包括链接分析等。

  接下来,阿峰SEO带你深入解读什么是搜索引擎倒排索引?倒排索引算法的工作原理和机制是什么?

  

  一、倒排索引介绍

  倒排索引(英文:Inverted Index)是全文检索系统中word文档映射结构中经常使用的一种索引方式。

  现代搜索引擎的索引大多是基于倒排索引构建的。这是因为在实际应用中,用户在使用搜索引擎查找信息时,往往只在信息中输入某个属性关键字,比如有些用户如果不记得歌名,就会输入歌词查找歌曲名称;输入一段节目内容,查找节目,依此类推。

  面对海量的信息数据,为了满足用户的需求,顺应信息时代信息快速获取的趋势,聪明的开发者在开发搜索引擎时,对这些信息数据进行逆向计算,开发“关键词——“文档”形式的映射结构,实现了通过物品属性信息映射物品时,可以帮助用户快速定位目标信息,从而大大降低获取信息的难度。

  倒排索引又称倒排索引,是一种逆向思维操作,是现代信息检索领域最有效的索引结构。

  二、倒排索引概述

  在关系型数据库系统中,索引是检索数据最有效的方式,但对于搜索引擎来说,却不能满足其特殊要求:

  1、 海量数据:搜索引擎面临海量数据。谷歌、百度等大型商业搜索引擎被数亿甚至数百亿网页索引。面对如此海量的数据,数据库系统很难有效管理。

  2、 简单的数据操作:搜索引擎使用的数据操作简单。一般来说,只需要添加、删除、修改、检查几个函数,并且数据有特定的格式,可以针对这些应用程序的应用程序设计简单高效。

  一般的数据库系统支持庞大而完整的功能,但同时也失去了速度和空间。

  最后,搜索引擎面临着大量的用户检索需求,这就要求搜索引擎在设计检索程序时分秒必争,尽可能完成索引建立时的大量计算工作,使尽可能少的检索操作。一般的数据库系统难以承受如此大量的用户请求,而且在检索响应时间和检索并发性方面还不如我们专门设计的索引系统。

  三、插图

  为了更好的理解,这里对以下专业术语做一个简单的解释。

  文档:我们以网页的形式看到互联网页面,网页中收录

了很多东西,比如TXT、EXCEL、PDF等,很多各种各样的文件都变成了文档。

  文档集合:由多个文档组成的集合称为文档集合。

  文档编号:Internet 上的每个文档都有自己的唯一编号。

  词号:每个词都有自己唯一的编号,编号用于表示单词或词组。

  倒排索引:在搜索引起的索引库中,以网页对应的词的存储形式,可以根据词快速获取相关文档。

  其实倒排索引很简单。下面胡大新将结合一些特征案例,逐步深入分析这个算法。你可以先了解一些基本的想法。

  让我们来看看下面的图片:

  

  上图显示了每个文档编号对应的不同文档。比如数字“1”对应“小明的早餐”,数字“2”对应“小明早上吃了什么”等等。

  另外,由于中英文的文化属性不同,汉字之间没有像英文单词那样明显的分隔符。索引首先需要对中文进行分词(下例中暂时没有去掉停用词),这样一个句子就变成了一个词组。

  如下所示:

  

  上图中单词的ID记录了每个单词的编号。第二列是数字对应的词,第三列是收录

这个词的文档。

  例如“小明”这个词,它的词号是“1”,倒排“1、2、4、5”表示这个词收录

在这些文献集中。事实上,搜索引擎更复杂。它不仅记录了词的文档数,还记录了词的出现频率(TF,是什么意思?很多seo从业者都在说关键词的密度,

  关键词 密度在市场上的计算页面有三种计算公式:

  基本的

  公式一: 关键词次数/页面总字数 x 100%

公式二: 关键词次数/页面总字数/关键词字数 x 100%

公式三: 关键词次数/页面分词数量 x 100%

  在不讨论哪个公式更准确的情况下,我们发现公式中出现关键词的次数,那么这个TF就是这个词出现在页面上的次数)。

  当搜索引擎计算搜索结果的排名时,这个TF会分析查询词和文档库中哪个文档更相关的参考因素。

  

  上图比较复杂。我们来看看收录

这个词的多个文档的文档频率,例如:“小明”出现在“4个文档”中。“吃”出现在“4个文件”中,以此类推。倒排列表小明(1;1),1为文档1,中间的1为该词在本文档中的出现频率,即该词在文档1中的位置,即文档中的第一个单词。

  搜索引擎可以说是世界上最复杂的程序之一,各种搜索引擎公司发布的算法很多。有兴趣的同学可以上网查一下这些搜索引擎公司申请的专利文件。有多种专利技术,其中涉及高等数学和其他知识。如果你能坚持下来,并结合实践,那么你以后在做网站SEO的时候就会有一个清晰的思路。

  总结

  通过上面的例子,相信大家已经了解了搜索引擎倒排索引算法的原理和流程。多了解搜索引擎的排序算法机制,可以更好的帮助我们做好网站的SEO排名。当然,我们不需要达到专业算法工程师的水平,即使只知道它的工作原理对我们来说也有很​​大的好处。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线