seo教程 搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗?答案在这里!)

优采云 发布时间: 2021-10-09 07:27

  seo教程 搜索引擎优化入门与进阶第三版(搜索引擎蜘蛛抓取网页到底有规律吗?答案在这里!)

  一个合格的seo工程师一定会了解搜索引擎的工作原理。百度和谷歌的原理差不多,只是有些细节不一样,比如分词技术。因为国内搜索一般都是百度,所以以后的课程我们都会做。当然,对于百度来说,基本类别只适用于谷歌!

  搜索引擎的工作原理其实很简单。首先,搜索引擎大致分为4个部分。第一部分是蜘蛛爬虫,第二部分是数据分析系统,第三部分是索引系统,第四部分是查询系统。略,当然这些只是基本的4个部分!

  下面说一下搜索引擎的工作流程:

  什么是搜索引擎蜘蛛,什么是爬虫程序?

  搜索引擎蜘蛛实际上是搜索引擎的自动应用。它的功能是什么?其实很简单,就是在网上浏览信息,然后抓取搜索引擎服务器上的所有信息,然后建立索引库等等,我们可以把搜索引擎蜘蛛当成一个用户,然后这个用户就会访问我们的网站,然后把我们网站的内容保存到我的电脑里!更容易理解。

  搜索引擎蜘蛛如何抓取网页?

  找到某个链接→下载这个网页→添加到临时库→从网页中提取链接→下载网页→循环

  首先,搜索引擎蜘蛛需要寻找链接。至于怎么找,很简单,就是通过链接链接。搜索引擎蜘蛛找到链接后,会下载该网页并将其存储在临时库中。当然,同时它会提取到这个页面的所有链接,然后就是一个循环。

  搜索引擎蜘蛛几乎24小时不停(我觉得这里很悲剧,没有假期。哈哈。)那么蜘蛛下载的网页呢?这就需要第二个系统,也就是搜索引擎的分析系统。

  搜索引擎蜘蛛会定期抓取网页吗?

  这是个好问题,那么搜索引擎蜘蛛是否会定期抓取网页?答案是肯定的!

  如果蜘蛛不分青红皂白地在网上爬行,那会很累的。Internet 上的网页数量每天都在增加。蜘蛛怎么能爬过去?所以蜘蛛爬网页也是有规律的!

  蜘蛛爬网策略一:深度优先

  什么是深度优先?简单地说,搜索引擎蜘蛛在一个页面上找到一个链接,然后向下爬取该链接,然后在下一页上找到另一个链接,然后向下爬行并抓取所有链接。这就是深度优先的爬取策略。看看下面的图片

  上图是深度优先的*敏*感*词*。如果网页A在搜索引擎中的权限最高,如果网页D的权限最低,如果搜索引擎蜘蛛按照深度优先的策略抓取网页,则相反,即D的权限网页成为最高,这是深度第一!

  蜘蛛网爬取策略2:广度优先

  宽度优先比较容易理解,即搜索引擎蜘蛛先爬取整个页面的所有链接,然后再爬取下一页的所有链接。

  上图是宽度优先*敏*感*词*!这其实就是大家通常所说的扁平化结构。你可能会在一个神秘的角落看到一篇文章的文章,告诉大家网页不要太有层次感。如果太多,会导致收录很难。这是用于处理搜索引擎蜘蛛的广度优先策略。其实就是这个原因。

  蜘蛛爬取网页策略3:权重优先

  如果宽度优先优于深度优先,则不是绝对的。只能说各有千秋。现在搜索引擎蜘蛛一般会同时使用两种抓取策略,即深度优先+广度优先,而在使用这两种策略进行抓取时,应该参考这个连接的权重。如果这个连接的权重好,就先用深度,如果这个连接的权重很低,就先用广度!

  那么搜索引擎蜘蛛是如何知道这个链接的权重的呢?

  这里有两个因素:1、 多级和少级;2、 本次连接的外部链接数量和质量;

  那么如果链接太多,会不会被爬取?这不是绝对的。这里有很多因素需要考虑。我们将在后面的推进中归结为逻辑策略。到时候我会详细告诉你的!

  蜘蛛爬取网页策略4:重温爬取

  我认为这更容易理解。例如,昨天搜索引擎蜘蛛来抓取我们的网页,今天我们在这个页面上添加了新内容,然后搜索引擎蜘蛛今天来抓取新内容。只需重新访问并获取!重访爬取也分为两种,如下:

  1、重温所有

  所谓revisit all,就是蜘蛛上次爬过的那个链接,然后在一个月的某一天,都revisit了又爬了一遍!

  2、单次重访

  单次重访一般是针对更新频率相对较快且稳定的页面。如果我们有一个页面,它不会一个月更新一次。

  然后搜索引擎蜘蛛第一天就这样来了,第二天你也是这样。那么第三天搜索引擎蜘蛛就不会来了。他们会每隔一次来一次,比如每 1 个月一次。一次,或在重新访问所有这些时更新一次。

  以上是搜索引擎蜘蛛抓取网页时使用的一些策略!正如我们上面所说的,当搜索引擎蜘蛛抓取一个网页时,第二部分就开始了,这是数据分析的部分。

  数据分析系统

  数据分析系统是对搜索引擎蜘蛛抓取的网页进行处理。那么数据分析分为以下几种:

  1、网页结构化

  简单地说,删除所有这些 html 代码并提取内容。

  2、降噪

  去噪是什么意思?在网页结构中,html代码已被删除,文本被保留。那么降噪就是指留下网页的主题内容,删除无用的内容,比如版权!

  3、检查重复

  重复检查比较容易理解,就是搜索引擎寻找重复的页面和内容,如果发现重复的页面,就会被删除。

  4、分词

  分词是什么?也就是搜索引擎蜘蛛已经进行了前面的步骤,然后提取了文本的内容,然后将我们的内容分成N个词,然后排列好存储在索引库中!它还计算该词在此页面上出现的次数。

  5、链接分析

  这一步是我们平时做的烦人的工作。搜索引擎会询问这个页面的反向链接数量,导出链接和内部链接的数量,以及应该给这个页面多少权重。

  数据索引系统

  执行完上述步骤后,搜索引擎会将处理后的信息放入搜索引擎的索引库中。那么这个索引库大致分为以下两个系统:

  前索引系统

  什么是正指数?简单的说,搜索引擎给所有的网址加上一个数字,然后这个数字就对应了网址的内容,包括网址的外链、关键词密度等数据。

  搜索引擎简单工作原理概述

  搜索引擎蜘蛛找到连接→根据蜘蛛的抓取策略抓取网页→交给分析系统→分析网页→建立索引库

  好了,这节课结束了。这是不容易的。我今天只是简单讲一下搜索引擎的工作。因为搜索引擎的系统很复杂,几十分钟讲不完,我们在进阶或者进阶教程。我慢慢讲!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线