seo教程搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗？答案在这里！)

优采云发布时间: 2021-10-09 07:27

　　一个合格的seo工程师一定会了解搜索引擎的工作原理。百度和谷歌的原理差不多，只是有些细节不一样，比如分词技术。因为国内搜索一般都是百度，所以以后的课程我们都会做。当然，对于百度来说，基本类别只适用于谷歌！

　　搜索引擎的工作原理其实很简单。首先，搜索引擎大致分为4个部分。第一部分是蜘蛛爬虫，第二部分是数据分析系统，第三部分是索引系统，第四部分是查询系统。略，当然这些只是基本的4个部分！

　　下面说一下搜索引擎的工作流程：

　　什么是搜索引擎蜘蛛，什么是爬虫程序？

　　搜索引擎蜘蛛实际上是搜索引擎的自动应用。它的功能是什么？其实很简单，就是在网上浏览信息，然后抓取搜索引擎服务器上的所有信息，然后建立索引库等等，我们可以把搜索引擎蜘蛛当成一个用户，然后这个用户就会访问我们的网站，然后把我们网站的内容保存到我的电脑里！更容易理解。

　　搜索引擎蜘蛛如何抓取网页？

　　找到某个链接→下载这个网页→添加到临时库→从网页中提取链接→下载网页→循环

　　首先，搜索引擎蜘蛛需要寻找链接。至于怎么找，很简单，就是通过链接链接。搜索引擎蜘蛛找到链接后，会下载该网页并将其存储在临时库中。当然，同时它会提取到这个页面的所有链接，然后就是一个循环。

　　搜索引擎蜘蛛几乎24小时不停（我觉得这里很悲剧，没有假期。哈哈。）那么蜘蛛下载的网页呢？这就需要第二个系统，也就是搜索引擎的分析系统。

　　搜索引擎蜘蛛会定期抓取网页吗？

　　这是个好问题，那么搜索引擎蜘蛛是否会定期抓取网页？答案是肯定的！

　　如果蜘蛛不分青红皂白地在网上爬行，那会很累的。Internet 上的网页数量每天都在增加。蜘蛛怎么能爬过去？所以蜘蛛爬网页也是有规律的！

　　蜘蛛爬网策略一：深度优先

　　什么是深度优先？简单地说，搜索引擎蜘蛛在一个页面上找到一个链接，然后向下爬取该链接，然后在下一页上找到另一个链接，然后向下爬行并抓取所有链接。这就是深度优先的爬取策略。看看下面的图片

　　上图是深度优先的*敏*感*词*。如果网页A在搜索引擎中的权限最高，如果网页D的权限最低，如果搜索引擎蜘蛛按照深度优先的策略抓取网页，则相反，即D的权限网页成为最高，这是深度第一！

　　蜘蛛网爬取策略2：广度优先

　　宽度优先比较容易理解，即搜索引擎蜘蛛先爬取整个页面的所有链接，然后再爬取下一页的所有链接。

　　上图是宽度优先*敏*感*词*！这其实就是大家通常所说的扁平化结构。你可能会在一个神秘的角落看到一篇文章的文章，告诉大家网页不要太有层次感。如果太多，会导致收录很难。这是用于处理搜索引擎蜘蛛的广度优先策略。其实就是这个原因。

　　蜘蛛爬取网页策略3：权重优先

　　如果宽度优先优于深度优先，则不是绝对的。只能说各有千秋。现在搜索引擎蜘蛛一般会同时使用两种抓取策略，即深度优先+广度优先，而在使用这两种策略进行抓取时，应该参考这个连接的权重。如果这个连接的权重好，就先用深度，如果这个连接的权重很低，就先用广度！

　　那么搜索引擎蜘蛛是如何知道这个链接的权重的呢？

　　这里有两个因素：1、多级和少级；2、本次连接的外部链接数量和质量；

　　那么如果链接太多，会不会被爬取？这不是绝对的。这里有很多因素需要考虑。我们将在后面的推进中归结为逻辑策略。到时候我会详细告诉你的！

　　蜘蛛爬取网页策略4：重温爬取

　　我认为这更容易理解。例如，昨天搜索引擎蜘蛛来抓取我们的网页，今天我们在这个页面上添加了新内容，然后搜索引擎蜘蛛今天来抓取新内容。只需重新访问并获取！重访爬取也分为两种，如下：

　　1、重温所有

　　所谓revisit all，就是蜘蛛上次爬过的那个链接，然后在一个月的某一天，都revisit了又爬了一遍！

　　2、单次重访

　　单次重访一般是针对更新频率相对较快且稳定的页面。如果我们有一个页面，它不会一个月更新一次。

　　然后搜索引擎蜘蛛第一天就这样来了，第二天你也是这样。那么第三天搜索引擎蜘蛛就不会来了。他们会每隔一次来一次，比如每 1 个月一次。一次，或在重新访问所有这些时更新一次。

　　以上是搜索引擎蜘蛛抓取网页时使用的一些策略！正如我们上面所说的，当搜索引擎蜘蛛抓取一个网页时，第二部分就开始了，这是数据分析的部分。

　　数据分析系统

　　数据分析系统是对搜索引擎蜘蛛抓取的网页进行处理。那么数据分析分为以下几种：

　　1、网页结构化

　　简单地说，删除所有这些 html 代码并提取内容。

　　2、降噪

　　去噪是什么意思？在网页结构中，html代码已被删除，文本被保留。那么降噪就是指留下网页的主题内容，删除无用的内容，比如版权！

　　3、检查重复

　　重复检查比较容易理解，就是搜索引擎寻找重复的页面和内容，如果发现重复的页面，就会被删除。

　　4、分词

　　分词是什么？也就是搜索引擎蜘蛛已经进行了前面的步骤，然后提取了文本的内容，然后将我们的内容分成N个词，然后排列好存储在索引库中！它还计算该词在此页面上出现的次数。

　　5、链接分析

　　这一步是我们平时做的烦人的工作。搜索引擎会询问这个页面的反向链接数量，导出链接和内部链接的数量，以及应该给这个页面多少权重。

　　数据索引系统

　　执行完上述步骤后，搜索引擎会将处理后的信息放入搜索引擎的索引库中。那么这个索引库大致分为以下两个系统：

　　前索引系统

　　什么是正指数？简单的说，搜索引擎给所有的网址加上一个数字，然后这个数字就对应了网址的内容，包括网址的外链、关键词密度等数据。

　　搜索引擎简单工作原理概述

　　搜索引擎蜘蛛找到连接→根据蜘蛛的抓取策略抓取网页→交给分析系统→分析网页→建立索引库

　　好了，这节课结束了。这是不容易的。我今天只是简单讲一下搜索引擎的工作。因为搜索引擎的系统很复杂，几十分钟讲不完，我们在进阶或者进阶教程。我慢慢讲！

0

2021-10-09

seo教程搜索引擎优化入门与进阶第三版

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo教程搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗？答案在这里！)

0 个评论

发起人

AI时代内容工厂

seo教程 搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗？答案在这里！)

0 个评论

发起人

相关问题

seo教程搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗？答案在这里！)