搜索引擎优化原理(【天学网:搜索引擎】搜索引擎蜘蛛的工作过程)

优采云 发布时间: 2021-11-01 21:22

  搜索引擎优化原理(【天学网:搜索引擎】搜索引擎蜘蛛的工作过程)

  搜索引擎的工作过程大致可以分为三个阶段。

  (1)爬取爬行:搜索引擎蜘蛛通过跟踪链接访问网页,获取页面的HTML代码并存入数据库。

  (2)预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理,为排名程序调用做准备。

  (3) 排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后生成一定格式的搜索结果页面。

  爬行和爬行

  爬取爬取是搜索引擎工作的第一步,完成数据采集的任务。

  1. 蜘蛛

  搜索引擎用来抓取和访问页面的程序称为蜘蛛程序或机器人程序。

  搜索引擎蜘蛛访问网站页面时,与普通用户使用的浏览器类似。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。搜索引擎为了提高爬取和爬取速度,使用多个蜘蛛并发分布爬取。

  当蜘蛛访问任何网站时,它首先会访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取被禁止的网址。

  与浏览器一样,搜索引擎蜘蛛也有自己的代理名称来标识自己。网站管理员可以在日志文件中查看搜索引擎的具体代理名称来识别搜索引擎蜘蛛。常见的搜索引擎蜘蛛名称如下:

  ·百度蜘蛛+(+)百度蜘蛛

  · Mozilla/5.0(兼容;Yahoo! Slurp China;)Yahoo China Spider

  · Mozilla/5.0(兼容;Yahoo! Slurp/3.0;)英文雅虎蜘蛛

  · Mozilla/5.0(兼容;Googlebot/2.1;+)谷歌蜘蛛

  · Msnbot/1.1 (+) 微软必应蜘蛛

  · 搜狗+网络+机器人+ (+#07)

  · Sosospider+ (+) 搜索蜘蛛

  · Mozilla/5.0 (兼容; YodaoBot/1.0;;) YoudaoBot

  2. 追踪链接

  为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。

  整个互联网由链接的网站和页面组成。理论上,蜘蛛从任何页面开始,按照链接爬到互联网上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采用一定的爬取策略来遍历互联网上的所有页面。

  最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。

  所谓深度先行,是指蜘蛛沿着发现的链接向前爬行,直到前面没有链接为止,然后回到第一页,沿着另一个链接向前爬行。

  如图2-20所示,蜘蛛跟随链接,从A页爬到A1、A2、A3、A4页,到达A4页后,没有其他链接可跟随,然后返回到A页,跟随另一个页面上的链接,爬到 B1、B2、B3、B4。在深度优先策略中,蜘蛛爬升直到它不能再向前移动,然后返回爬另一条线。

  广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上所有的一级链接,然后按照二级页面上找到的链接爬行到第三级页面。

  如图2-21所示,蜘蛛从A页面沿着A1、B1、C1页面的链接爬行,直到A页面的所有链接都被爬满,然后从A1页面的下一级链接爬到A2页面, A3, A4, ... 页。

  

  图2-20 深度优先遍历策略

  

  图2-21 广度优先遍历策略

  理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以爬取整个互联网。在实际工作中,蜘蛛的带宽资源和时间不是无限的,不可能爬满所有页面。事实上,最大的搜索引擎只是爬取和收录互联网的一小部分。

  深度优先和广度优先通常是混用的,这样可以同时处理尽可能多的网站(广度优先)和网站(深度优先)的部分内页。

  3. 吸引蜘蛛

  可以看出,蜘蛛虽然理论上可以爬取所有页面,但在实践中不能也不会这样做。如果SEO人员希望自己的页面更多是收录,就必须想办法吸引蜘蛛爬行。由于不是所有的页面都可以爬取,所以蜘蛛要做的就是尽可能多地爬取重要的页面。哪些页面被认为更重要?有几个影响因素。

  1、网站 和页面权重。高质量和高级资格的网站被认为具有更高的权重。这类网站上的页面会被爬得更深,所以更多的内部页面会是收录。

  2、 页面更新率。每次蜘蛛爬行时,都会存储页面数据。如果第二次爬取发现页面和第一次收录完全一样,说明页面没有更新,蜘蛛不需要频繁爬取。如果页面内容更新频繁,蜘蛛会更频繁地访问这个页面,页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。

  3、导入链接。无论是外链还是同一个网站的内链,为了被蜘蛛爬取,必须有导入链接进入页面,否则蜘蛛没有机会知道存在这一页。高质量的导入链接也往往会增加页面导出链接的深度。

  4、点击离主页的距离。一般来说,首页在网站上的权重最高,大部分外链都指向首页,首页是蜘蛛最常访问的。点击离首页越近,页面权重越高,被蜘蛛抓取的机会就越大。

  4.地址库

  为了避免重复抓取和抓取网址,搜索引擎会建立一个地址库来记录已经发现没有被抓取的页面,以及已经被抓取的页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线