搜索引擎优化原理(【天学网:搜索引擎】搜索引擎蜘蛛的工作过程)
优采云 发布时间: 2022-03-10 20:17搜索引擎优化原理(【天学网:搜索引擎】搜索引擎蜘蛛的工作过程)
一个搜索引擎的工作过程大致可以分为三个阶段。
(1)爬取爬取:搜索引擎蜘蛛通过以下链接访问网页,获取页面HTML代码并存入数据库。
(2)预处理:索引程序对抓取到的页面数据进行文本提取、中文分词、索引等,为排名程序调用做好准备。
(3)排名:用户进入关键词后,排名程序调用索引库数据,计算相关度,然后生成一定格式的搜索结果页面。
爬行和爬行
爬取和爬取是搜索引擎工作的第一步,完成数据采集的任务。
1.蜘蛛
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。
搜索引擎蜘蛛访问 网站 页面类似于普通用户使用的浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高爬取和爬取的速度,搜索引擎使用多个蜘蛛并发分布爬取。
当蜘蛛访问任何网站 时,它会首先访问网站 根目录下的robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录,则蜘蛛会遵守协议,不会抓取被禁止的 URL。
与浏览器一样,搜索引擎蜘蛛也具有标识自己的代理名称。站长可以在日志文件中查看搜索引擎的具体代理名称,以识别搜索引擎蜘蛛。常见的搜索引擎蜘蛛名称如下:
·百度蜘蛛+(+)百度蜘蛛
· Mozilla/5.0(兼容;Yahoo! Slurp 中国;)Yahoo! 啜饮中国;
Mozilla/5.0(兼容;Yahoo! Slurp/3.0;)英文 Yahoo! 蜘蛛
Mozilla/5.0(兼容;Googlebot/2.1;+)谷歌蜘蛛
· msnbot/1.1 (+) 微软必应蜘蛛
· 搜狗+web+机器人+(+#07)搜狗蜘蛛
· Sosospider+(+)
· Mozilla/5.0(兼容;有道机器人/1.0;;)有道机器人
2.点击链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来.
整个 Internet 由链接的 网站 和页面组成。理论上,蜘蛛可以从任何页面开始并跟随链接爬到互联网上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采取一定的爬取策略来遍历互联网上的所有页面。
最简单的爬取遍历策略分为两种,一种是深度优先,一种是广度优先。
所谓深度优先,就是蜘蛛沿着找到的链接向前爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。
如图 2-20 所示,蜘蛛跟随链接,从页面 A 爬到页面 A1、A2、A3 和 A4。到达A4页面后,没有其他链接可以跟随,然后返回页面A,并跟随页面上的另一个链接。爬到 B1、B2、B3、B4。在深度优先策略中,蜘蛛爬行直到它不能再向前移动,然后才返回爬行另一条线。
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一直跟随一个链接,而是爬取页面上所有的一级链接,然后再跟随二级页面上找到的链接。翻到第三页。
如图2-21所示,爬虫从A页面爬到A1、B1、C1页面,直到A页面的所有链接都被爬完,再从A1、A3页面找到的下一层链接爬到A2, A4,...页。
图2-20 深度优先遍历策略
图2-21 广度优先遍历策略
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。在实际工作中,蜘蛛的带宽资源和时间都不是无限的,不可能爬取所有页面。事实上,最大的搜索引擎抓取和收录只是互联网的一小部分。
深度优先和广度优先通常混合使用,这样可以照顾到尽可能多的网站(广度优先),以及一些网站内页(深度-第一的)。
3. 吸引蜘蛛
因此,虽然理论上蜘蛛可以抓取和抓取所有页面,但实际上它们不能也不会这样做。如果 SEO 希望他们的更多页面是 收录,他们必须想办法吸引蜘蛛爬行。由于不可能爬取所有页面,蜘蛛所要做的就是爬取尽可能多的重要页面。哪些页面被认为更重要?有几个影响因素。
1、网站 和页面重量。优质和旧的网站被认为权重更高,在这个网站上的页面会被爬得更高的深度,所以更多的内页会是收录。
2、页面是最新的。蜘蛛每次抓取时都会存储页面数据。如果第二次爬取发现页面和第一次收录一模一样,说明页面没有更新,蜘蛛不需要频繁爬取。如果页面内容更新频繁,蜘蛛会更频繁地访问该页面,页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。
3、导入链接。无论是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛没有机会知道页面。高质量的入站链接通常还会增加页面上出站链接的抓取深度。
4、到首页的点击距离。一般来说,首页在网站上的权重最高,大部分外部链接指向首页,首页也是蜘蛛访问频率最高的。离首页越近的点击距离,页面权重越高,被蜘蛛爬取的机会就越大。
4.地址库
为了避免重复爬取和爬取网址,搜索引擎会建立一个地址数据库来记录已找到但未爬取的页面,以及已爬取的页面。