搜索引擎优化原理(【天学网：搜索引擎】搜索引擎蜘蛛的工作过程)

优采云发布时间: 2022-03-10 20:17

　　一个搜索引擎的工作过程大致可以分为三个阶段。

　　(1）爬取爬取：搜索引擎蜘蛛通过以下链接访问网页，获取页面HTML代码并存入数据库。

　　(2）预处理：索引程序对抓取到的页面数据进行文本提取、中文分词、索引等，为排名程序调用做好准备。

　　(3）排名：用户进入关键词后，排名程序调用索引库数据，计算相关度，然后生成一定格式的搜索结果页面。

　　爬行和爬行

　　爬取和爬取是搜索引擎工作的第一步，完成数据采集的任务。

　　1.蜘蛛

　　搜索引擎用来抓取和访问页面的程序称为蜘蛛，也称为机器人。

　　搜索引擎蜘蛛访问网站页面类似于普通用户使用的浏览器。蜘蛛程序发送页面访问请求后，服务器返回HTML代码，蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高爬取和爬取的速度，搜索引擎使用多个蜘蛛并发分布爬取。

　　当蜘蛛访问任何网站时，它会首先访问网站根目录下的robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录，则蜘蛛会遵守协议，不会抓取被禁止的 URL。

　　与浏览器一样，搜索引擎蜘蛛也具有标识自己的代理名称。站长可以在日志文件中查看搜索引擎的具体代理名称，以识别搜索引擎蜘蛛。常见的搜索引擎蜘蛛名称如下：

　　·百度蜘蛛+(+)百度蜘蛛

　　· Mozilla/5.0（兼容；Yahoo! Slurp 中国；）Yahoo! 啜饮中国；

　　Mozilla/5.0（兼容；Yahoo! Slurp/3.0;）英文 Yahoo! 蜘蛛

　　Mozilla/5.0（兼容；Googlebot/2.1；+）谷歌蜘蛛

　　· msnbot/1.1 (+) 微软必应蜘蛛

　　· 搜狗+web+机器人+（+#07）搜狗蜘蛛

　　· Sosospider+(+)

　　· Mozilla/5.0（兼容；有道机器人/1.0;；）有道机器人

　　2.点击链接

　　为了在网络上抓取尽可能多的页面，搜索引擎蜘蛛会跟随页面上的链接，从一个页面爬到下一个页面，就像蜘蛛在蜘蛛网上爬行一样，这就是搜索引擎蜘蛛这个名字的由来.

　　整个 Internet 由链接的网站和页面组成。理论上，蜘蛛可以从任何页面开始并跟随链接爬到互联网上的所有页面。当然，由于网站和页面链接的结构极其复杂，蜘蛛需要采取一定的爬取策略来遍历互联网上的所有页面。

　　最简单的爬取遍历策略分为两种，一种是深度优先，一种是广度优先。

　　所谓深度优先，就是蜘蛛沿着找到的链接向前爬行，直到前面没有其他链接，然后返回第一页，沿着另一个链接爬行。

　　如图 2-20 所示，蜘蛛跟随链接，从页面 A 爬到页面 A1、A2、A3 和 A4。到达A4页面后，没有其他链接可以跟随，然后返回页面A，并跟随页面上的另一个链接。爬到 B1、B2、B3、B4。在深度优先策略中，蜘蛛爬行直到它不能再向前移动，然后才返回爬行另一条线。

　　广度优先是指当蜘蛛在一个页面上发现多个链接时，它不会一直跟随一个链接，而是爬取页面上所有的一级链接，然后再跟随二级页面上找到的链接。翻到第三页。

　　如图2-21所示，爬虫从A页面爬到A1、B1、C1页面，直到A页面的所有链接都被爬完，再从A1、A3页面找到的下一层链接爬到A2， A4，...页。

　　图2-20 深度优先遍历策略

　　图2-21 广度优先遍历策略

　　理论上，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，它就可以爬取整个互联网。在实际工作中，蜘蛛的带宽资源和时间都不是无限的，不可能爬取所有页面。事实上，最大的搜索引擎抓取和收录只是互联网的一小部分。

　　深度优先和广度优先通常混合使用，这样可以照顾到尽可能多的网站（广度优先），以及一些网站内页（深度-第一的）。

　　3. 吸引蜘蛛

　　因此，虽然理论上蜘蛛可以抓取和抓取所有页面，但实际上它们不能也不会这样做。如果 SEO 希望他们的更多页面是收录，他们必须想办法吸引蜘蛛爬行。由于不可能爬取所有页面，蜘蛛所要做的就是爬取尽可能多的重要页面。哪些页面被认为更重要？有几个影响因素。

　　1、网站和页面重量。优质和旧的网站被认为权重更高，在这个网站上的页面会被爬得更高的深度，所以更多的内页会是收录。

　　2、页面是最新的。蜘蛛每次抓取时都会存储页面数据。如果第二次爬取发现页面和第一次收录一模一样，说明页面没有更新，蜘蛛不需要频繁爬取。如果页面内容更新频繁，蜘蛛会更频繁地访问该页面，页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。

　　3、导入链接。无论是外部链接还是同一个网站的内部链接，为了被蜘蛛爬取，必须有传入链接才能进入页面，否则蜘蛛没有机会知道页面。高质量的入站链接通常还会增加页面上出站链接的抓取深度。

　　4、到首页的点击距离。一般来说，首页在网站上的权重最高，大部分外部链接指向首页，首页也是蜘蛛访问频率最高的。离首页越近的点击距离，页面权重越高，被蜘蛛爬取的机会就越大。

　　4.地址库

　　为了避免重复爬取和爬取网址，搜索引擎会建立一个地址数据库来记录已找到但未爬取的页面，以及已爬取的页面。

0

2022-03-10

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化原理(【天学网：搜索引擎】搜索引擎蜘蛛的工作过程)

0 个评论

发起人