百度搜索引擎优化指南20[官方版(一下索引系统建立倒排索引的重要过程——入库写库)
优采云 发布时间: 2022-03-14 15:11百度搜索引擎优化指南20[官方版(一下索引系统建立倒排索引的重要过程——入库写库)
众所周知,搜索引擎的主要工作流程包括爬取、存储、页面分析、索引、检索等几个主要流程。上一章我们主要介绍了一些爬取和存储链接的内容。本章简要介绍了索引系统。
在以十亿为单位的网页库中搜索特定的 关键词 就像大海捞针一样。有可能在一定时间内完成搜索,但用户不能等待。从用户体验的角度来看,我们必须在毫秒级别给出。用户对结果满意,否则用户只能流失。怎样才能满足这个要求?
如果可以知道用户正在寻找的关键词(查询被分割后)中出现了哪些页面,那么用户检索的过程可以想象为收录不同部分的页面集合相交的过程的查询。, 检索成为页面名称之间的比较和交集。这样,以毫秒为单位的数十亿单位的检索成为可能。这就是所谓的倒排索引和交集检索过程。构建倒排索引的基本流程如下:
1、页面分析的过程其实就是对原创页面的不同部分进行识别和标记,例如:标题、关键词、内容、链接、锚点、评论、其他非重要区域等;
2、分词的过程实际上包括分词、分词、同义词转换、同义词替换等。以一个页面的标题切分为例,得到的数据会如:词条文本、词条、词性、词性等;
3、前面的准备工作完成后,下一步就是建立倒排索引,形成{termàdoc}。下图是索引系统中的倒排索引流程。
倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来,我们将介绍在索引系统中建立倒排索引的重要过程——入库和写入。