输入关键字 抓取所有网页(倒排索引存储结构与分治思维的应用的思维应用)

优采云 发布时间: 2021-12-27 23:08

  输入关键字 抓取所有网页(倒排索引存储结构与分治思维的应用的思维应用)

  这是搜索领域的一个基本问题。有很多高效率的因素。影响最大的两个因素是倒排索引存储结构和分而治之思想的应用。

  通过倒排索引,通过大型分布式存储集群和调度(十万台服务器+),可以线性降低搜索的性能(效率提升一万倍+)。

  简单说一下倒排索引的存储结构:

  ...

  猪头:[网页网址](行,列),...[网页网址](行,列);

  ...

  特朗普:[网址](行,列),...[网址](行,列);

  ...

  1、 搜索引擎得到“特朗普是猪”这个词后关键词,首先进行分词分析,分解为【特朗普,猪头】;

  2、这时候搜索引擎会打开流处理开关,打开猪头数据的“水龙头”和特朗普数据的“水龙头”,用逻辑处理器“整合”,查询前 10 个网页并反馈给客户。

  由于中文词汇用尽了人类的极限,不超过10万行,加上B树排序索引的应用,在查询特朗普和猪头所在的行时,计算机中的查询次数可以控制在20次以内(

  再加上特朗普和猪头的“收敛”和逻辑过滤操作,查询到前10个结果后,关掉“水龙头”,这个查询效率非常快,甚至比查询自己电脑上的文件夹还要快(10

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线