SEO实战密码：搜索引擎蜘蛛的工作原理是什么？

优采云发布时间: 2021-06-01 00:14

　　在互联网时代，搜索引擎可以说是日常生活的一部分。不仅如此，历经20多年的风霜雨雪，搜索引擎依然牢牢占据流量入口，不得不感叹。

　　此外，当我们谈论搜索引擎时，我们都会想到一家大公司和一家被黑的巨头公司。足以看出搜索引擎的巨大作用。

　　搜索引擎的工作原理是什么

　　搜索引擎的工作原理是什么

　　作为产品人员，当然不能对此视而不见，也应该了解它的工作原理。

　　搜索引擎的工作原理大致可以分为3个步骤

　　1. 爬行和爬行

　　2. 预处理

　　3. 排序

　　所谓的图片值得一千个字，我会说些没有图片的话...

　　搜索引擎的工作原理是什么

　　PS：上图摘自《SEO实用密码》。

　　详细说明如下：

　　爬行和爬行

　　简单的说：就是搜索引擎蜘蛛沿着互联网爬行，抓取它的被抓取页面，并将这些被抓取的页面存储起来。

　　说到这里，你可能会问：为什么叫它“蜘蛛”？

　　为了抓取尽可能多的页面，搜索引擎会跟随页面上的链接，从一个页面爬到下一个页面，就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。

　　搜索引擎在跟踪网络上的链接时会使用某些策略，因为现在网络链接太多了。最简单的爬行遍历策略有两种，一种是深度优先，一种是广度优先。

　　还有一点值得一提：当搜索引擎访问网站页面时，它类似于普通用户使用的浏览器。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中，页面数据与用户浏览器获取的HTML完全一致。

　　预处理

　　由于爬取的页面数量过多（以“亿”为单位），无法实时快速排序，需要进行预处理。这就是产品设计中的“复杂度守恒原则”。我们不能让用户等待十秒钟或更长时间。我们只能在后台努力。

　　搜索引擎的工作原理是什么

　　在某些数据中，“预处理”也称为“索引”，因为“索引”是预处理中最重要的内容。

　　预处理过程比较复杂，有几点值得一提：

　　搜索引擎的工作原理是什么

　　搜索引擎的工作原理是什么

　　如果拿到倒排索引，可以根据用户的关键词搜索快速找到对应的文件，但是这样就够了吗？不要天真。

　　通过上面的步骤，实际得到的只是页面本身的内容。说白了，是页面本身告诉搜索引擎怎么做。

　　俗话说：王婆卖瓜自夸。

　　就像我们在网上购物一样，我们不仅会看店家给出的产品介绍，还会看买家的评论。页面内容的质量也需要其他人的评价——这里的“其他人”指的是“其他页面”。 “所以，我们还需要计算链接关系。

　　排名

　　我发现没有：排名是用户唯一能感觉到的步骤。爬行、爬行和预处理都是在后台完成的。正因为如此，用户会觉得使用起来非常快。

　　排名过程也比较复杂，以下几点值得一提：

　　但是，由于每个关键词对应的文件数量可能非常庞大（比如上亿），处理如此庞大的数据量并不能满足用户对“快速”的需求。同时，用户并不需要所有的内容，他们往往只查看内容的前几页，甚至很多用户只查看第一页的前几页内容。因此，需要选择一定数量的内容进行处理。这涉及选择第一批熟人的子集。

　　但是如何选择呢？这是个问题。

　　但是到这里了吗？还没有。

0

2021-06-01

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册