搜索引擎优化原理(搜索引擎蜘蛛抓取网页到底有规律吗?答案在这里!)
优采云 发布时间: 2022-03-14 15:21搜索引擎优化原理(搜索引擎蜘蛛抓取网页到底有规律吗?答案在这里!)
一个合格的seo工程师一定会明白搜索引擎的工作原理。百度和谷歌的原理差不多,只是有些细节不一样,比如分词技术等。因为国内搜索一般都是百度,所以我们以后的课程都是针对百度的,当然基础课只是谷歌也一样!
搜索引擎的工作原理其实很简单。首先,搜索引擎大致分为四个部分。第一部分是爬虫,第二部分是数据分析系统,第三部分是索引系统,第四部分是查询系统。好吧,当然这只是基本的 4 个部分!
让我们谈谈搜索引擎的工作流程:
什么是搜索引擎蜘蛛,什么是爬虫?
搜索引擎蜘蛛程序实际上是搜索引擎的自动应用程序。它的作用是什么?事实上,这很简单。就是在网上浏览信息,然后将信息抓取到搜索引擎的服务器,然后建立索引库等。我们可以把搜索引擎蜘蛛当成一个用户,然后这个用户会访问我们的< 网站,然后将我们的网站内容保存到你自己的电脑上!更好理解。
搜索引擎蜘蛛如何抓取网页?
找到链接→下载这个网页→添加到临时库→提取网页中的链接→下载网页→循环
首先,搜索引擎的蜘蛛需要找到链接。至于怎么找,很简单,就是通过link链接。搜索引擎蜘蛛找到该链接后,会下载该网页并将其存储在一个临时库中。当然,同时它会提取页面上的所有链接,然后循环。
搜索引擎蜘蛛几乎一天 24 小时(悲催这里,没有假期。哈哈。)那么蜘蛛下载的网页呢?这就需要第二个系统,即搜索引擎的分析系统。
搜索引擎蜘蛛会定期抓取网页吗?
这是一个很好的问题,那么搜索引擎蜘蛛会定期抓取网页吗?答案是肯定的!
如果蜘蛛随机抓取网页,那将是浪费时间。互联网上的网页数量每天都在增加。蜘蛛是如何爬行它们的?因此,蜘蛛会定期抓取网页!
蜘蛛爬行策略一:深度优先
什么是深度优先?简单来说,搜索引擎蜘蛛在一个页面上找到一个链接,然后沿着这个链接往下爬,然后在下一页找到一个链接,然后再往下爬,把所有的都爬过去。这是深度优先的爬取策略。大家看下图
深度优先
上图中,是深度优先的*敏*感*词*。让我们假设网页A在搜索引擎中的权限最高,如果网页D的权限最低,如果搜索引擎蜘蛛按照深度优先的策略抓取网页,那么就会反过来,也就是D页的权限变成最高的,就是深度优先!
蜘蛛爬取策略二:广度优先
宽度优先比较容易理解,即搜索引擎蜘蛛先爬取整个页面的所有链接,然后再爬取下一页的所有链接。
广度优先
上图是宽度优先的*敏*感*词*!这其实就是大家通常所说的扁平化结构。你可能会在一个神秘的角落看到一篇文章文章,警告你网页的层数不能太多,如果太多会导致收录很难,这就是广度优先策略对付搜索引擎蜘蛛,这就是为什么。
蜘蛛爬网策略3:权重优先
如果说宽度优先优于深度优先,那也不是绝对的。只能说各有千秋。现在搜索引擎蜘蛛一般会同时使用两种抓取策略,即深度优先+宽度优先,而在使用这两种策略抓取的时候,应该参考这个连接的权重。如果这个连接的权重不错,那么使用深度优先,如果这个连接的权重很低,那么使用宽度优先!
那么搜索引擎蜘蛛是如何知道这个链接的权重的呢?
这里有两个因素:1、更多和更少的级别;2、此连接的外部链接的数量和质量;
那么如果链接的层级太多,会不会爬不上去呢?这不是绝对的。这里有很多因素需要考虑。我们将在后续推进中将其简化为合乎逻辑的策略。到时候我会详细告诉你的!
蜘蛛网策略四:重温爬虫
我认为这很容易理解。比如搜索引擎的蜘蛛昨天抓取了我们的网页,今天我们在这个网页上添加了新的内容,那么搜索引擎的蜘蛛就会抓取今天的新内容。只需重温爬行!revisit crawl也分为两种,如下:
1、重温所有
所谓全重访,是指蜘蛛最后一次爬取的链接,然后在本月的某一天,所有的链接都被重访爬取一次!
2、单次重访
单次重访一般是针对更新频率比较快且稳定的页面。如果我们有一个页面,我们不会每月更新一次。
那么搜索引擎蜘蛛第一天来你是这个样子,第二天你还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,它们每隔一段时间就会来,比如每一个月。一次,或在重新访问所有内容时更新一次。
以上就是搜索引擎蜘蛛抓取网页的一些策略!好了,我们上面说了,当搜索引擎蜘蛛爬回网页的时候,第二部分就开始了,也就是这部分数据分析。
数据分析系统
数据分析系统是对搜索引擎蜘蛛检索到的网页进行处理,所以数据分析分为以下几部分:
1、网页结构
简单来说就是把那些html代码全部删除,然后提取内容。
2、降噪
降噪是什么意思?在网页的结构化中,已经删除了html代码,留下了文字,所以去噪是指留下网页的主题内容,删除无用的内容,比如版权!
3、检查重复项
重复检查更容易理解,即搜索引擎发现重复的网页和内容,如果发现重复的页面,则将其删除。
4、分词
分词有什么神奇的吗?也就是搜索引擎蜘蛛执行前面的步骤,然后提取文本的内容,然后将我们的内容分成N个词,排列,存储到索引数据库中!它还计算单词在页面上出现的次数。
5、链接分析
这一步是我们平时做烦躁的工作。搜索引擎会查询,这个页面有多少反向链接,有多少外链和内链,给这个页面多少权重等等。
数据索引系统
执行上述步骤后,搜索引擎会将处理后的信息放入搜索引擎的索引数据库中。那么这个索引库大致分为以下两个系统:
正向索引系统
什么是远期指数?简单的说就是搜索引擎给所有的URL加了一个数字,这个数字对应了URL的内容,包括URL的外部链接、关键词密度等数据。
搜索引擎工作原理的简单概述
搜索引擎蜘蛛发现连接→根据蜘蛛的抓取策略抓取网页→交给分析系统→分析网页→建立索引库