搜索引擎优化原理(SEO实战密码:1.爬行与抓取简单,没图我说个 )
优采云 发布时间: 2022-03-18 07:02搜索引擎优化原理(SEO实战密码:1.爬行与抓取简单,没图我说个
)
提到搜索引擎,我们都会想到一个大巨头公司,一个被黑的巨头公司。足以看出搜索引擎的巨大作用。
作为产品人,当然不能对此视而不见,应该明白它是如何工作的。
搜索引擎的工作原理大致可以分为3个步骤
1. 爬行和爬行
2. 预处理
3. 排序
俗话说,图胜千言,没有图,我说……
PS:上图摘自《SEO实战密码》。
详细描述如下:
1.爬取和抓取
简单地说:是搜索引擎蜘蛛在互联网上爬行,爬取它们爬取的页面,并存储那些爬取的页面。
说到这里,你可能会问:为什么叫它“蜘蛛”?
为了爬取尽可能多的页面,搜索引擎会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来。
搜索引擎在跟踪网络上的链接时会使用某些策略,因为今天有太多的网络链接。最简单的爬取遍历策略有两种,一种是深度优先,一种是广度优先。
还有一件事值得一提:搜索引擎访问 网站 页面类似于普通用户使用的浏览器。搜索引擎蜘蛛爬取的数据存储在原创页面数据库中,其中的页面数据与用户浏览器获取的 HTML 完全相同。
2.预处理
由于爬取的页面数量太大(以“十亿”为单位)无法实时快速排序,因此需要进行预处理。这就是产品设计中的“复杂性守恒原则”。我们不能让用户等待超过十秒以上,所以只能在后台处理。
在一些数据中,“预处理”也称为“索引”,因为“索引”是预处理最重要的内容。
预处理过程比较复杂,值得一提的是以下几点:
文件标识内容
文件 1 关键词1, 关键词2, 关键词7…
文件 2 关键词1, 关键词3, 关键词8…
文件 3 关键词2, 关键词4, 关键词6…
…………
关键词 文件
关键词1 文件 1、文件 2、文件 7...
关键词2 文件 1、文件 3、文件 8……
关键词3 文件 2、文件 4、文件 6………………
有了倒排索引,就可以根据用户搜索到的关键词快速找到对应的文件,但是这样就够了吗?不要天真。
通过以上步骤,其实只获取到了页面本身的内容。说白了就是页面本身告诉搜索引擎怎么做。
俗话说:王婆卖瓜,她卖自己吹牛。
就像我们在网上购物时,不仅会看店铺给出的产品介绍,还会看买家的评价,页面内容的好坏也需要其他人的评价——这里的“其他人”指“其他页面”。因此,我们还需要链接关系计算。
3.排名
Found no:排名是用户唯一能感觉到的一步,爬取、爬取、预处理都是在后台完成的。正因为如此,用户会觉得使用起来非常快。
排名过程也比较复杂,有以下几点值得一提:
但是,由于每个关键词对应的文件数量可能非常庞大(比如上亿),处理如此庞大的数据量并不能满足用户对“速度”的需求。同时,用户并不需要所有的内容,他们往往只查看前几页的内容,甚至很多用户只查看第一页的前几页内容。因此,需要选择一定数量的内容进行处理。这涉及选择熟人的子集。
但如何选择?这是个问题。
但这就是结束了吗?还没有。