百度搜索引擎优化原理(搜索引擎-SEO优化系列教程(6)搜索引擎的工作原理)
优采云 发布时间: 2021-10-08 04:03百度搜索引擎优化原理(搜索引擎-SEO优化系列教程(6)搜索引擎的工作原理)
搜索引擎如何工作-SEO优化系列教程(6)
搜索引擎的工作原理
SEO人员需要了解搜索引擎的工作原理,了解其工作原理才能更好地优化网站
搜索引擎的基本工作原理包括以下四个过程:爬取建库、搜索排序、外部投票、结果展示
爬取并构建一个库
互联网信息爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作的第一环节
数据采集系统作为整个搜索引擎系统的上游,主要负责互联网信息的采集、保存和更新。He2像蜘蛛一样在网络上爬行,所以通常被称为“蜘蛛”
比如我们常用的搜索引擎蜘蛛有Baiduspdier、Googlebot、搜狗Web Speider等。
蜘蛛爬取系统时搜索引擎数据来源的重要保证。如果把Web理解为一个有向图,那么Spider的工作过程可以看成是对这个有向图的遍历。
从一些重要的*敏*感*词*网址开始,通过页面上的超链接,不断地发现和抓取新的网址,尽可能多地抓取有价值的网页。
对于像百度这样的大型蜘蛛系统,由于网页随时可能被修改、删除或出现新的超链接,所以需要保持蜘蛛过去爬过的更新页面,并维护一个URL库和页面库
1.获取策略类型
实际上,Baiduspdier 在爬行过程中是一个超级复杂的网络环境。为了让系统尽可能多的抓取有价值的资源,并保持系统中页面与实际环境的一致性,不给网站经验造成压力,以及各种复杂的抓取策略必须设计
下面是一个简单的介绍:
(1) 爬行友好
互联网资源的海量要求抓取系统尽可能高效地利用资源,在有限的硬件和宽带资源下抓取尽可能多的有价值的资源。
这就导致了另一个问题:捕获的网站的带宽造成访问压力。如果度数过大,会直接影响捕获到的网站的正常用户访问行为
因此,在爬取过程中,必须进行一定的爬取压力控制,以达到既不影响网站正常用户访问的目的,又尽可能多的抓取有价值的资源。
通常,最基本的是基于IP的压力控制
因为如果是基于一个域名,可能会出现一个域名对应多个IP(很多大网站)或者多个域名对应同一个IP(小网站共享IP)的问题)
在实践中,压力部署控制往往是根据IP和域名的各种条件进行的
同时,站长平台也推出了压力反馈工具。站长可以手动调整自己的网站抓取压力。此时,百度蜘蛛会根据站长的要求,优先进行抓取压力控制。
一个站点的抓取速度控制一般分为两类:一是一段时间内的抓取频率;二、一段时间内的爬取流量
同一个站点不同时间爬取速度不同
比如晚上的爬取速度可能会更快,具体取决于网站类型,只要是错开正常用户访问的高峰期,不断调整的思路
对于不同的站点,也需要不同的爬取速度
谢谢观看。以上搜索引擎的工作原理,只是说今天的文章分享到这里。时光飞逝,不知不觉中,新川教育成立11周年。在此,祝各位新老学员和各界人士身体健康,事业有成,家庭幸福