输入关键字 抓取所有网页(倒排索引存储结构与分治思维的应用的思维应用)
优采云 发布时间: 2021-12-27 23:08输入关键字 抓取所有网页(倒排索引存储结构与分治思维的应用的思维应用)
这是搜索领域的一个基本问题。有很多高效率的因素。影响最大的两个因素是倒排索引存储结构和分而治之思想的应用。
通过倒排索引,通过大型分布式存储集群和调度(十万台服务器+),可以线性降低搜索的性能(效率提升一万倍+)。
简单说一下倒排索引的存储结构:
...
猪头:[网页网址](行,列),...[网页网址](行,列);
...
特朗普:[网址](行,列),...[网址](行,列);
...
1、 搜索引擎得到“特朗普是猪”这个词后关键词,首先进行分词分析,分解为【特朗普,猪头】;
2、这时候搜索引擎会打开流处理开关,打开猪头数据的“水龙头”和特朗普数据的“水龙头”,用逻辑处理器“整合”,查询前 10 个网页并反馈给客户。
由于中文词汇用尽了人类的极限,不超过10万行,加上B树排序索引的应用,在查询特朗普和猪头所在的行时,计算机中的查询次数可以控制在20次以内(
再加上特朗普和猪头的“收敛”和逻辑过滤操作,查询到前10个结果后,关掉“水龙头”,这个查询效率非常快,甚至比查询自己电脑上的文件夹还要快(10