SEO实战密码:搜索引擎蜘蛛的工作原理是什么?
优采云 发布时间: 2021-06-01 00:14SEO实战密码:搜索引擎蜘蛛的工作原理是什么?
在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,历经20多年的风霜雨雪,搜索引擎依然牢牢占据流量入口,不得不感叹。
此外,当我们谈论搜索引擎时,我们都会想到一家大公司和一家被黑的巨头公司。足以看出搜索引擎的巨大作用。
搜索引擎的工作原理是什么
搜索引擎的工作原理是什么
作为产品人员,当然不能对此视而不见,也应该了解它的工作原理。
搜索引擎的工作原理大致可以分为3个步骤
1. 爬行和爬行
2. 预处理
3. 排序
所谓的图片值得一千个字,我会说些没有图片的话...
搜索引擎的工作原理是什么
PS:上图摘自《SEO实用密码》。
详细说明如下:
爬行和爬行
简单的说:就是搜索引擎蜘蛛沿着互联网爬行,抓取它的被抓取页面,并将这些被抓取的页面存储起来。
说到这里,你可能会问:为什么叫它“蜘蛛”?
为了抓取尽可能多的页面,搜索引擎会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。
搜索引擎在跟踪网络上的链接时会使用某些策略,因为现在网络链接太多了。最简单的爬行遍历策略有两种,一种是深度优先,一种是广度优先。
还有一点值得一提:当搜索引擎访问网站页面时,它类似于普通用户使用的浏览器。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中,页面数据与用户浏览器获取的HTML完全一致。
预处理
由于爬取的页面数量过多(以“亿”为单位),无法实时快速排序,需要进行预处理。这就是产品设计中的“复杂度守恒原则”。我们不能让用户等待十秒钟或更长时间。我们只能在后台努力。
搜索引擎的工作原理是什么
在某些数据中,“预处理”也称为“索引”,因为“索引”是预处理中最重要的内容。
预处理过程比较复杂,有几点值得一提:
搜索引擎的工作原理是什么
搜索引擎的工作原理是什么
如果拿到倒排索引,可以根据用户的关键词搜索快速找到对应的文件,但是这样就够了吗?不要天真。
通过上面的步骤,实际得到的只是页面本身的内容。说白了,是页面本身告诉搜索引擎怎么做。
俗话说:王婆卖瓜自夸。
就像我们在网上购物一样,我们不仅会看店家给出的产品介绍,还会看买家的评论。页面内容的质量也需要其他人的评价——这里的“其他人”指的是“其他页面”。 “所以,我们还需要计算链接关系。
排名
我发现没有:排名是用户唯一能感觉到的步骤。爬行、爬行和预处理都是在后台完成的。正因为如此,用户会觉得使用起来非常快。
排名过程也比较复杂,以下几点值得一提:
但是,由于每个关键词对应的文件数量可能非常庞大(比如上亿),处理如此庞大的数据量并不能满足用户对“快速”的需求。同时,用户并不需要所有的内容,他们往往只查看内容的前几页,甚至很多用户只查看第一页的前几页内容。因此,需要选择一定数量的内容进行处理。这涉及选择第一批熟人的子集。
但是如何选择呢?这是个问题。
但是到这里了吗?还没有。