搜索引擎优化原理(SEO实战密码：1.爬行与抓取简单，没图我说个 )

优采云发布时间: 2022-03-18 07:02

　　搜索引擎优化原理(SEO实战密码：1.爬行与抓取简单，没图我说个

)

　　提到搜索引擎，我们都会想到一个大巨头公司，一个被黑的巨头公司。足以看出搜索引擎的巨大作用。

　　作为产品人，当然不能对此视而不见，应该明白它是如何工作的。

　　搜索引擎的工作原理大致可以分为3个步骤

　　1. 爬行和爬行

　　2. 预处理

　　3. 排序

　　俗话说，图胜千言，没有图，我说……

　　PS：上图摘自《SEO实战密码》。

　　详细描述如下：

　　1.爬取和抓取

　　简单地说：是搜索引擎蜘蛛在互联网上爬行，爬取它们爬取的页面，并存储那些爬取的页面。

　　说到这里，你可能会问：为什么叫它“蜘蛛”？

　　为了爬取尽可能多的页面，搜索引擎会跟随页面上的链接，从一个页面爬到下一个页面，就像蜘蛛在蜘蛛网上爬行一样，这就是搜索引擎蜘蛛这个名字的由来。

　　搜索引擎在跟踪网络上的链接时会使用某些策略，因为今天有太多的网络链接。最简单的爬取遍历策略有两种，一种是深度优先，一种是广度优先。

　　还有一件事值得一提：搜索引擎访问网站页面类似于普通用户使用的浏览器。搜索引擎蜘蛛爬取的数据存储在原创页面数据库中，其中的页面数据与用户浏览器获取的 HTML 完全相同。

　　2.预处理

　　由于爬取的页面数量太大（以“十亿”为单位）无法实时快速排序，因此需要进行预处理。这就是产品设计中的“复杂性守恒原则”。我们不能让用户等待超过十秒以上，所以只能在后台处理。

　　在一些数据中，“预处理”也称为“索引”，因为“索引”是预处理最重要的内容。

　　预处理过程比较复杂，值得一提的是以下几点：

　　文件标识内容

　　文件 1 关键词1, 关键词2, 关键词7…

　　文件 2 关键词1, 关键词3, 关键词8…

　　文件 3 关键词2, 关键词4, 关键词6…

　　…………

　　关键词文件

　　关键词1 文件 1、文件 2、文件 7...

　　关键词2 文件 1、文件 3、文件 8……

　　关键词3 文件 2、文件 4、文件 6………………

　　有了倒排索引，就可以根据用户搜索到的关键词快速找到对应的文件，但是这样就够了吗？不要天真。

　　通过以上步骤，其实只获取到了页面本身的内容。说白了就是页面本身告诉搜索引擎怎么做。

　　俗话说：王婆卖瓜，她卖自己吹牛。

　　就像我们在网上购物时，不仅会看店铺给出的产品介绍，还会看买家的评价，页面内容的好坏也需要其他人的评价——这里的“其他人”指“其他页面”。因此，我们还需要链接关系计算。

　　3.排名

　　Found no：排名是用户唯一能感觉到的一步，爬取、爬取、预处理都是在后台完成的。正因为如此，用户会觉得使用起来非常快。

　　排名过程也比较复杂，有以下几点值得一提：

　　但是，由于每个关键词对应的文件数量可能非常庞大（比如上亿），处理如此庞大的数据量并不能满足用户对“速度”的需求。同时，用户并不需要所有的内容，他们往往只查看前几页的内容，甚至很多用户只查看第一页的前几页内容。因此，需要选择一定数量的内容进行处理。这涉及选择熟人的子集。

　　但如何选择？这是个问题。

　　但这就是结束了吗？还没有。

0

2022-03-18

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化原理(SEO实战密码：1.爬行与抓取简单，没图我说个 )

0 个评论

发起人