SEO实战密码:搜索引擎蜘蛛的工作原理是什么?

优采云 发布时间: 2021-06-01 00:14

  SEO实战密码:搜索引擎蜘蛛的工作原理是什么?

  在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,历经20多年的风霜雨雪,搜索引擎依然牢牢占据流量入口,不得不感叹。

  此外,当我们谈论搜索引擎时,我们都会想到一家大公司和一家被黑的巨头公司。足以看出搜索引擎的巨大作用。

  

  搜索引擎的工作原理是什么

  

  搜索引擎的工作原理是什么

  作为产品人员,当然不能对此视而不见,也应该了解它的工作原理。

  搜索引擎的工作原理大致可以分为3个步骤

  1. 爬行和爬行

  2. 预处理

  3. 排序

  所谓的图片值得一千个字,我会说些没有图片的话...

  

  搜索引擎的工作原理是什么

  PS:上图摘自《SEO实用密码》。

  详细说明如下:

  爬行和爬行

  简单的说:就是搜索引擎蜘蛛沿着互联网爬行,抓取它的被抓取页面,并将这些被抓取的页面存储起来。

  说到这里,你可能会问:为什么叫它“蜘蛛”?

  为了抓取尽可能多的页面,搜索引擎会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。

  搜索引擎在跟踪网络上的链接时会使用某些策略,因为现在网络链接太多了。最简单的爬行遍历策略有两种,一种是深度优先,一种是广度优先。

  还有一点值得一提:当搜索引擎访问网站页面时,它类似于普通用户使用的浏览器。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中,页面数据与用户浏览器获取的HTML完全一致。

  预处理

  由于爬取的页面数量过多(以“亿”为单位),无法实时快速排序,需要进行预处理。这就是产品设计中的“复杂度守恒原则”。我们不能让用户等待十秒钟或更长时间。我们只能在后台努力。

  

  搜索引擎的工作原理是什么

  在某些数据中,“预处理”也称为“索引”,因为“索引”是预处理中最重要的内容。

  预处理过程比较复杂,有几点值得一提:

  

  搜索引擎的工作原理是什么

  

  搜索引擎的工作原理是什么

  如果拿到倒排索引,可以根据用户的关键词搜索快速找到对应的文件,但是这样就够了吗?不要天真。

  通过上面的步骤,实际得到的只是页面本身的内容。说白了,是页面本身告诉搜索引擎怎么做。

  俗话说:王婆卖瓜自夸。

  就像我们在网上购物一样,我们不仅会看店家给出的产品介绍,还会看买家的评​​论。页面内容的质量也需要其他人的评价——这里的“其他人”指的是“其他页面”。 “所以,我们还需要计算链接关系。

  排名

  我发现没有:排名是用户唯一能感觉到的步骤。爬行、爬行和预处理都是在后台完成的。正因为如此,用户会觉得使用起来非常快。

  排名过程也比较复杂,以下几点值得一提:

  但是,由于每个关键词对应的文件数量可能非常庞大(比如上亿),处理如此庞大的数据量并不能满足用户对“快速”的需求。同时,用户并不需要所有的内容,他们往往只查看内容的前几页,甚至很多用户只查看第一页的前几页内容。因此,需要选择一定数量的内容进行处理。这涉及选择第一批熟人的子集。

  但是如何选择呢?这是个问题。

  但是到这里了吗?还没有。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线