搜索引擎优化知识(搜索引擎的工作的过程非常复杂,而简单的讲的工过程)
优采云 发布时间: 2022-02-15 20:20搜索引擎优化知识(搜索引擎的工作的过程非常复杂,而简单的讲的工过程)
搜索引擎的工作过程非常复杂,简单来说,搜索引擎的工作过程大致可以分为三个阶段。爬取爬取:搜索引擎蜘蛛通过以下链接访问页面,获取页面的 HTML 代码并将其存储在数据库中。预处理:搜索引擎对抓取的页面数据进行文本提取、中文分词、索引等,为排名程序调用做准备。排名:用户输入关键词后,排名调用索引数据库数据,计算相关度,然后生成一定格式的搜索结果页面。
爬行和爬行
爬取和爬取是搜索引擎工作的第一步,完成数据采集的任务。
蜘蛛
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。
蜘蛛代理名称:
百度蜘蛛:百度蜘蛛+(+)·
雅虎!Slurp 中国:Mozilla/5.0(兼容;Yahoo! Slurp 中国;)·
英语雅虎蜘蛛:Mozilla/5.0(兼容;Yahoo! Slurp/3.0;)
谷歌蜘蛛:Mozilla/5.0(兼容;Googlebot/2.1;+)·
微软必应蜘蛛:msnbot/1.1 (+)·
搜狗蜘蛛:搜狗+网络+机器人+(+#07)·
搜搜蜘蛛:搜搜蜘蛛+(+) ·
有道蜘蛛:Mozilla/5.0(兼容;YodaoBot/1.0;;)
跟随链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来. 最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。
深度优先搜索
深度优先搜索是在搜索树的每一层只展开一个子节点,继续往深处前进,直到不能再前进(到达叶子节点或被深度限制),然后从当前节点返回到上一个节点,继续另一个方向。这种方法的搜索树是从根开始逐个分支逐渐形成的。
深度优先搜索也称为垂直搜索。由于已解决的问题树可能收录无限分支,如果深度优先搜索误入无限分支(即深度是无限的),则无法找到目标节点。因此,深度优先搜索策略是不完整的。而且,应用这种策略得到的解不一定是最好的解(最短路径)。
广度优先搜索
在深度优先搜索算法中,首先扩展深度较大的节点。如果将算法改为按照搜索中节点的层级进行搜索,当该层的节点还没有被搜索和处理过时,下层的节点不能被处理,即先扩展深度较小的节点,即就是说先生成的节点先展开,这种搜索算法称为广度优先搜索。
在深度优先搜索算法中,首先扩展深度较大的节点。如果将算法改为按照搜索中节点的层级进行搜索,当该层的节点还没有被搜索和处理过时,下层的节点不能被处理,即先扩展深度较小的节点,即就是说先生成的节点先展开,这种搜索算法称为广度优先搜索。
吸引蜘蛛
哪些页面被认为更重要?有几个因素:
· 网站 和页面权重。优质和旧的网站被认为权重更高,在这个网站上的页面会被爬得更高的深度,所以更多的内页会是收录。
· 页面更新。蜘蛛每次抓取时都会存储页面数据。如果第二次爬取发现页面和第一次收录一模一样,说明页面没有更新,蜘蛛不需要频繁爬取。如果页面内容更新频繁,蜘蛛会更频繁地访问该页面,页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。
· 导入链接。不管是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛没有机会知道这一页。高质量的入站链接通常还会增加页面上出站链接的抓取深度。一般来说,首页在网站上的权重最高,大部分外部链接指向首页,首页也是蜘蛛访问频率最高的。离首页越近的点击距离,页面权重越高,被蜘蛛爬取的机会就越大。
地址库
为了避免重复爬取和爬取网址,搜索引擎会建立一个地址数据库来记录已找到但未爬取的页面,以及已爬取的页面。地址存储库中有几个 url 来源:
(1)手动输入*敏*感*词*网站。
(2)蜘蛛爬取页面后,从html中解析出新的链接url,并与地址库中的数据进行比较,如果是不在地址库中的url,则将其存储在要访问的地址库中。
(3)站长通过搜索引擎网页提交表单提交的网址。
蜘蛛根据重要性从要访问的地址库中提取url,访问并爬取页面,然后将要访问的地址库中的url删除,放入被访问地址的地址库中。
大多数主要搜索引擎都为网站管理员提供了提交 URL 的表单。但是,这些提交的 URL 只存储在地址数据库中。是否 收录 取决于页面的重要性。搜索引擎的绝大多数页面 收录 都是由蜘蛛自己通过链接获得的。可以说,提交页面基本没用,搜索引擎更喜欢跟随链接发现新页面。
文件存储 搜索引擎蜘蛛爬取的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。每个 uRI 都有一个唯一的文件编号。
爬行时重复内容检测
检测和删除重复项通常在下面描述的预处理过程中完成,但是现代蜘蛛在爬取和爬取文件时也会进行一定程度的重复项检测。当你在网站上遇到大量转载或抄袭、权重极低的内容时,很可能会停止爬取。这就是为什么一些网站管理员在日志文件中发现蜘蛛,但该页面从未真正被 收录 访问过。
预处理
在一些 SEO 资料中,“预处理”也简称为“索引”,因为索引是预处理中最重要的步骤。
搜索引擎蜘蛛爬取的原创页面不能直接用于查询排名处理。搜索引擎数据库的页数在万亿级别。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算量太大,不可能在一两秒内返回排名结果。因此,必须对爬取的页面进行预处理,为最终的查询排名做准备。