搜索引擎优化知识(搜索引擎的工作的过程非常复杂，而简单的讲的工过程)

优采云发布时间: 2022-02-15 20:20

　　搜索引擎的工作过程非常复杂，简单来说，搜索引擎的工作过程大致可以分为三个阶段。爬取爬取：搜索引擎蜘蛛通过以下链接访问页面，获取页面的 HTML 代码并将其存储在数据库中。预处理：搜索引擎对抓取的页面数据进行文本提取、中文分词、索引等，为排名程序调用做准备。排名：用户输入关键词后，排名调用索引数据库数据，计算相关度，然后生成一定格式的搜索结果页面。

　　爬行和爬行

　　爬取和爬取是搜索引擎工作的第一步，完成数据采集的任务。

　　蜘蛛

　　搜索引擎用来抓取和访问页面的程序称为蜘蛛，也称为机器人。

　　蜘蛛代理名称：

　　百度蜘蛛：百度蜘蛛+(+)·

　　雅虎！Slurp 中国：Mozilla/5.0（兼容；Yahoo! Slurp 中国；）·

　　英语雅虎蜘蛛：Mozilla/5.0（兼容；Yahoo! Slurp/3.0;）

　　谷歌蜘蛛：Mozilla/5.0（兼容；Googlebot/2.1；+）·

　　微软必应蜘蛛：msnbot/1.1 (+)·

　　搜狗蜘蛛：搜狗+网络+机器人+(+#07)·

　　搜搜蜘蛛：搜搜蜘蛛+(+) ·

　　有道蜘蛛：Mozilla/5.0（兼容；YodaoBot/1.0;;）

　　跟随链接

　　为了在网络上抓取尽可能多的页面，搜索引擎蜘蛛会跟随页面上的链接，从一个页面爬到下一个页面，就像蜘蛛在蜘蛛网上爬行一样，这就是搜索引擎蜘蛛这个名字的由来. 最简单的爬行遍历策略分为两种，一种是深度优先，一种是广度优先。

　　深度优先搜索

　　深度优先搜索是在搜索树的每一层只展开一个子节点，继续往深处前进，直到不能再前进（到达叶子节点或被深度限制），然后从当前节点返回到上一个节点，继续另一个方向。这种方法的搜索树是从根开始逐个分支逐渐形成的。

　　深度优先搜索也称为垂直搜索。由于已解决的问题树可能收录无限分支，如果深度优先搜索误入无限分支（即深度是无限的），则无法找到目标节点。因此，深度优先搜索策略是不完整的。而且，应用这种策略得到的解不一定是最好的解（最短路径）。

　　广度优先搜索

　　在深度优先搜索算法中，首先扩展深度较大的节点。如果将算法改为按照搜索中节点的层级进行搜索，当该层的节点还没有被搜索和处理过时，下层的节点不能被处理，即先扩展深度较小的节点，即就是说先生成的节点先展开，这种搜索算法称为广度优先搜索。

　　吸引蜘蛛

　　哪些页面被认为更重要？有几个因素：

　　· 网站和页面权重。优质和旧的网站被认为权重更高，在这个网站上的页面会被爬得更高的深度，所以更多的内页会是收录。

　　· 页面更新。蜘蛛每次抓取时都会存储页面数据。如果第二次爬取发现页面和第一次收录一模一样，说明页面没有更新，蜘蛛不需要频繁爬取。如果页面内容更新频繁，蜘蛛会更频繁地访问该页面，页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。

　　· 导入链接。不管是外部链接还是同一个网站的内部链接，为了被蜘蛛爬取，必须有传入链接才能进入页面，否则蜘蛛没有机会知道这一页。高质量的入站链接通常还会增加页面上出站链接的抓取深度。一般来说，首页在网站上的权重最高，大部分外部链接指向首页，首页也是蜘蛛访问频率最高的。离首页越近的点击距离，页面权重越高，被蜘蛛爬取的机会就越大。

　　地址库

　　为了避免重复爬取和爬取网址，搜索引擎会建立一个地址数据库来记录已找到但未爬取的页面，以及已爬取的页面。地址存储库中有几个 url 来源：

　　(1)手动输入*敏*感*词*网站。

　　(2)蜘蛛爬取页面后，从html中解析出新的链接url，并与地址库中的数据进行比较，如果是不在地址库中的url，则将其存储在要访问的地址库中。

　　(3)站长通过搜索引擎网页提交表单提交的网址。

　　蜘蛛根据重要性从要访问的地址库中提取url，访问并爬取页面，然后将要访问的地址库中的url删除，放入被访问地址的地址库中。

　　大多数主要搜索引擎都为网站管理员提供了提交 URL 的表单。但是，这些提交的 URL 只存储在地址数据库中。是否收录取决于页面的重要性。搜索引擎的绝大多数页面收录都是由蜘蛛自己通过链接获得的。可以说，提交页面基本没用，搜索引擎更喜欢跟随链接发现新页面。

　　文件存储搜索引擎蜘蛛爬取的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。每个 uRI 都有一个唯一的文件编号。

　　爬行时重复内容检测

　　检测和删除重复项通常在下面描述的预处理过程中完成，但是现代蜘蛛在爬取和爬取文件时也会进行一定程度的重复项检测。当你在网站上遇到大量转载或抄袭、权重极低的内容时，很可能会停止爬取。这就是为什么一些网站管理员在日志文件中发现蜘蛛，但该页面从未真正被收录访问过。

　　预处理

　　在一些 SEO 资料中，“预处理”也简称为“索引”，因为索引是预处理中最重要的步骤。

　　搜索引擎蜘蛛爬取的原创页面不能直接用于查询排名处理。搜索引擎数据库的页数在万亿级别。用户输入搜索词后，排名程序会实时分析这么多页面的相关性。计算量太大，不可能在一两秒内返回排名结果。因此，必须对爬取的页面进行预处理，为最终的查询排名做准备。

0

2022-02-15

搜索引擎优化知识

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化知识(搜索引擎的工作的过程非常复杂，而简单的讲的工过程)

0 个评论

发起人