一个SEO从业人员必须要了解搜索引擎的原理

优采云 发布时间: 2021-07-25 19:08

  一个SEO从业人员必须要了解搜索引擎的原理

  SEO 从业者必须了解搜索引擎。所谓知其所以然。如果你不知道搜索引擎的原理,你就是在为SEO做SEO。做得好不好没有反馈。知道为什么。

  SEO 是搜索引擎的优化。需要站在搜索引擎的角度去思考,他想解决什么样的问题,遇到什么样的困难,他如何做出选择以获得最好的结果。 SEO本质上是为了尽量减少搜索引擎的工作量,让蜘蛛可以更轻松、更快速地收录页面,更准确地提取内容。

  搜索引擎的工作主要分为三个阶段

  搜索引擎用来抓取的程序称为蜘蛛,也称为机器人。为了抓取尽可能多的链接,搜索引擎会从一个页面的链接到下一个链接,然后将网页的HTML代码存储在数据库中。理论上,我们可以看到蜘蛛抓取所有网页,但事实并非如此。受计算能力和存储能力的限制,搜索引擎实际上只抓取了相对较小的一部分网页。因此,所有SEO人员需要做的就是吸引蜘蛛。注意这是我们经常做的,比如增加网站的权重,保持内容更新,从外部导入链接,点击离首页的距离。

  此时搜索引擎只抓取HTML代码,不能直接用于排序处理,因此需要对该过程进行预处理,为最终排名做准备。

  第一步是提取文本,去掉html代码和一些无意义的停用词,然后剩下网页的body内容,然后用中文对内容进行切分。分词的过程比较复杂,使用字典比较和自定义比较等等,最终的结果就是一个网页被切分成一个词表或者词组。很多网页都是这样处理的,也就是正向索引。结果会得到一个网页,每个网页对应n个关键词的DB

  前向索引不能直接用于排名。比如我们要搜索关键词“网赢”,系统必须扫描所有索引,找到关键词2的文件,然后进行相关性计算,非常有延迟。 ,所以最后一步是进行倒排索引,即通过大量文件的重新排列和排列,为n创建一个关键词数据库。找出最后一个搜索词与关键词的对应关系。

  经过上面的步骤,我们已经得到了用户搜索词与网页关键词的对应关系,但是文件量太大,无法随意展示或全部展示。这涉及网页的筛选和排序。

  

  先创建一个初选的子集,也就是我们平时看到的百度只能显示78页的内容。这个选择一般是根据网站重重高的优先级,然后进行相关性计算。这部分是SEOer最感兴趣的,涉及到几个方面:

  最后是排名显示。

  由此可以看出,我们的大部分工作本质上都是利用搜索引擎的机制来实现自己的目标,所以有必要了解搜索引擎的工作原理。

  相关文章

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线