百度搜索引擎优化原理(搜索引擎-SEO优化系列教程(6)搜索引擎的工作原理)

优采云发布时间: 2021-10-08 04:03

　　搜索引擎如何工作-SEO优化系列教程（6)

　　搜索引擎的工作原理

　　SEO人员需要了解搜索引擎的工作原理，了解其工作原理才能更好地优化网站

　　搜索引擎的基本工作原理包括以下四个过程：爬取建库、搜索排序、外部投票、结果展示

　　爬取并构建一个库

　　互联网信息爆炸式增长，如何有效地获取和使用这些信息是搜索引擎工作的第一环节

　　数据采集系统作为整个搜索引擎系统的上游，主要负责互联网信息的采集、保存和更新。He2像蜘蛛一样在网络上爬行，所以通常被称为“蜘蛛”

　　比如我们常用的搜索引擎蜘蛛有Baiduspdier、Googlebot、搜狗Web Speider等。

　　蜘蛛爬取系统时搜索引擎数据来源的重要保证。如果把Web理解为一个有向图，那么Spider的工作过程可以看成是对这个有向图的遍历。

　　从一些重要的*敏*感*词*网址开始，通过页面上的超链接，不断地发现和抓取新的网址，尽可能多地抓取有价值的网页。

　　对于像百度这样的大型蜘蛛系统，由于网页随时可能被修改、删除或出现新的超链接，所以需要保持蜘蛛过去爬过的更新页面，并维护一个URL库和页面库

　　1.获取策略类型

　　实际上，Baiduspdier 在爬行过程中是一个超级复杂的网络环境。为了让系统尽可能多的抓取有价值的资源，并保持系统中页面与实际环境的一致性，不给网站经验造成压力，以及各种复杂的抓取策略必须设计

　　下面是一个简单的介绍：

　　（1) 爬行友好

　　互联网资源的海量要求抓取系统尽可能高效地利用资源，在有限的硬件和宽带资源下抓取尽可能多的有价值的资源。

　　这就导致了另一个问题：捕获的网站的带宽造成访问压力。如果度数过大，会直接影响捕获到的网站的正常用户访问行为

　　因此，在爬取过程中，必须进行一定的爬取压力控制，以达到既不影响网站正常用户访问的目的，又尽可能多的抓取有价值的资源。

　　通常，最基本的是基于IP的压力控制

　　因为如果是基于一个域名，可能会出现一个域名对应多个IP（很多大网站）或者多个域名对应同一个IP（小网站共享IP）的问题)

　　在实践中，压力部署控制往往是根据IP和域名的各种条件进行的

　　同时，站长平台也推出了压力反馈工具。站长可以手动调整自己的网站抓取压力。此时，百度蜘蛛会根据站长的要求，优先进行抓取压力控制。

　　一个站点的抓取速度控制一般分为两类：一是一段时间内的抓取频率；二、一段时间内的爬取流量

　　同一个站点不同时间爬取速度不同

　　比如晚上的爬取速度可能会更快，具体取决于网站类型，只要是错开正常用户访问的高峰期，不断调整的思路

　　对于不同的站点，也需要不同的爬取速度

　　谢谢观看。以上搜索引擎的工作原理，只是说今天的文章分享到这里。时光飞逝，不知不觉中，新川教育成立11周年。在此，祝各位新老学员和各界人士身体健康，事业有成，家庭幸福

0

2021-10-08

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册