前期六六seo基础入门教程-搜索引擎的工作原理详解

优采云发布时间: 2021-07-25 05:21

　　第一个六六或六seo基础入门教程，向学生介绍了seo常见的专业术语和功能。在本文的开头，我会给大家正式详细讲解搜索引擎的工作原理。估计一直在看seo教程的同学都会有疑问。为什么在基础介绍章节的中后期就开始介绍搜索引擎的工作原理？这里为大家一一解释。网上很多seo入门教程，对于搜索引擎原理的介绍都不是很详细。即使很多seo入门的同学进入了工作岗位，对搜索引擎的工作原理也只是一头雾水。而seo的概念大家都知道，就是搜索引擎优化。所以，我们在前期学习seo的时候一定要彻底了解搜索引擎的工作原理，切不可一刀切。之所以会在基础介绍的后面详细讲解搜索引擎的工作原理，是因为前面介绍中提到的专业术语会在下面的介绍中有所涉及。这就好比组装一个大模具时，首先要了解组装的零件，然后再了解组装的方法和目的。一起来了解搜索引擎的工作原理吧！

　　seo基础入门第十四讲：搜索引擎的爬取和爬取工作原理

　　首先要了解搜索引擎工作原理三部曲：爬取和爬取-预处理-排名展示。本文将为您详细讲解搜索引擎工作原理的爬取和爬取原理。

　　爬行和爬行是搜索引擎工作的第一步，旨在完成数据的采集。爬行和爬行主要由搜索引擎蜘蛛完成。其工作原理是蜘蛛通过抓取站点链接找到并访问下一页，最后将其存储在搜索引擎数据库中。（因为搜索引擎程序爬取了一个网站，它会逐渐通过网站homepage爬取其他页面，就好像蜘蛛在蜘蛛网上爬行一样，所以爬取程序就叫做蜘蛛）具体步骤如下:

　　1、搜索引擎蜘蛛

　　第六讲seo第十讲给大家介绍了网站的搜索引擎和robots.txt协议。当蜘蛛访问任何网站时，第一步是访问网站root目录。根据协议内容，蜘蛛知道站长要爬取哪些页面，不能爬取哪些页面。蜘蛛会严格遵循 robots.txt 文件的内容。而且站长还可以通过网站日志了解最近爬取网站的搜索引擎蜘蛛（六项seo基础入门第十二讲介绍网站日志的概念）。无论是百度、360、搜狗还是其他国外搜索引擎，蜘蛛都有自己的具体名称。（例如：百度蜘蛛=百度蜘蛛）方便站长识别搜索引擎。

　　2、爬取策略。

　　得到robots.txt文件后，蜘蛛开始爬取网站内容。由于互联网每天都有非常大量的数据更新，蜘蛛最大程度地抓取所有新页面。会采用一定的爬取策略。一般分为深度爬行和广度爬行。深度爬行是指蜘蛛沿着首页选择一个二级页面后向前爬行，直到后面的页面没有跳出链接才会停止。这时候蜘蛛会返回首页，选择其他二级页面重复之前的操作，最后爬完就离开。广度爬取是指蜘蛛沿着首页爬取一个二级页面，然后返回首页爬取其他二级页面，等所有二级页面都爬完后再爬到三级页面。理论上，这两种方法都可以爬取网站的全部内容。但是在蜘蛛的实际爬行工作中，由于时间有限，数据量大，蜘蛛会把深度爬行和广度爬行混在一起，这样就可以兼顾网站的部分深度页面@ 和大部分网站 @Site。

　　3、吸引蜘蛛爬行

　　上面介绍了蜘蛛爬取策略。我们还了解到蜘蛛无法在有限的时间内抓取所有网站数据。那么我们的网站如果有新的更新，我们希望蜘蛛尽快访问爬取，我们应该采用什么seo优化技术来吸引蜘蛛主动访问？

　　首先，在搜索引擎蜘蛛眼中，网站页面也会被分为三、六、九等，越重要的网站会先被抓取，也就是越多重要的网站在我们的术语中，蜘蛛我越喜欢访问。所以网站和内页的权重越高，蜘蛛越喜欢访问。

　　吸引蜘蛛爬行的因素还有页面更新频率和质量。如果蜘蛛爬行您的网站，则每次都不会出现新页面。几次后，蜘蛛回复你的网站如果更新频率确定了，自然不会频繁爬取。如果更新的内容太差，蜘蛛会认为你的网站属于trash网站，也会降低爬取的频率。

　　发布高质量的外链来吸引蜘蛛爬行也是一个很好的方法。外链的概念和作用我已经给大家介绍过了。蜘蛛会通过抓取外部链接然后通过链接跟踪的方式爬进我们的网站。

　　4、访问地址库

　　蜘蛛爬取网站链接时，为了避免重复爬取，会建立访问地址库，分为未访问地址库和访问地址库。当新地址出现时，蜘蛛首先记录地址，然后去地址库进行比对。如果地址库中没有这样的URL，蜘蛛就会把这个URL分配给未访问的地址库。反之亦然。之后，蜘蛛会根据页面的重要程度一一抓取未访问地址库收录的地址，完成后将该地址分配给访问地址库。

　　以上是seo基础介绍第十四讲。搜索引擎工作原理的第一步是爬取和爬取的原理。了解了蜘蛛爬取的原理后，我们才能更好的做好网站优化工作。下面六六将继续介绍预处理和排序机制的原理。希望对seoer有所帮助。

0

2021-07-25

seo优化全解第1版_搜索引擎入门详解

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

前期六六seo基础入门教程-搜索引擎的工作原理详解

0 个评论

发起人