SEO从业者应该了解的搜索引擎工作原理是什么?

优采云 发布时间: 2021-04-03 19:00

  SEO从业者应该了解的搜索引擎工作原理是什么?

  搜索引擎的工作原理是SEO从业人员应该理解的一门基础课程,但是有人说,对于新手来说,搜索引擎的工作原理并不容易理解,因为它的工作原理太抽象了,搜索引擎是善变的人,无论谁都无法真正理解搜索的工作原理。

  我想说的是,无论搜索引擎如何变化,一般的收录原理都不会改变:

  1、找到网站的URL并下载页面。

  2、确定页面质量是否符合收录标准收录页面,否则将其删除。

  3、确定收录页面是否已更新并更新页面快照。

  以上三个是搜索引擎收录页面的基本规则,任何Google都不会违反它们。然后我们可以以以上三个为基础详细解释搜索引擎的工作原理。

  首先,搜索引擎的组成:

  

  如图1所示:搜索引擎可以分为五个基本部分,包括Web爬网系统,数据分析系统,数据存储系统,缓存系统和显示系统。

  1、 Web爬网系统:它分为检测系统和下载系统。检测系统就是我们通常所说的蜘蛛。当蜘蛛在Internet上进行爬网时检测到URL为网站时,它将指向该URL。使用下载系统将页面下载到搜索引擎的服务器中,然后将页面移交给数据分析系统。

  2、数据分析系统:它分为两个系统:数据分析和数据处理。数据分析系统从Web爬网系统获取下载的页面时,首先执行数据分析以删除不相关的文本或网站重复内容,对该页面文本进行处理,然后判断处理后的页面内容是否满足收录标准,并将其传递到存储系统,但未删除。

  3、存储数据系统:保存收录的页面,然后定期确定存储的页面是否已更新。

  4、缓存系统:存储搜索引擎考虑的高价值内容。当用户搜索某个关键词时,他们通常会看到收录数以千万计的内容,但是搜索引擎仅显示1,000个项目。也就是说,缓存系统上仅放置了1000个项目,用户可以最快地找到他们想要的内容。

  5、显示系统:用户搜索返回到显示器的信息。

  这是搜索引擎系统的组成部分,那么搜索引擎和收录如何找到页面? ? ?

  

  蜘蛛在Internet上爬行并遇到您网站的URL。首先,它根据网站的权重和相关性提取URL并将其插入URL队列,然后判断网站的URL是否可以使用。分析成功。如果分析成功,蜘蛛程序将爬行到您网站。我要说的是,Spider不会直接分析您网页的内容,而是根据您的网站机器人规则来确定是否对您的网页进行爬网,从而找到您的网站机器人文件。如果漫游器文件不存在,将返回404错误,但搜索引擎将继续抓取您的网站内容。

  搜索引擎抓取网页内容后,将简单判断该网页是否符合收录标准。如果不符合收录标准,请继续将URL添加到URL队列中。如果符合收录,则会下载网页内容。

  当搜索引擎获得下载的网页内容时,它将提取页面上的URL,将其继续插入URL队列中,然后进一步分析页面上的数据以确定该网页内容是否符合收录 标准。如果达到收录标准,则页面将存储在硬盘中。

  当用户搜索某个关键词时,为了减少查询时间,搜索引擎会将一些更相关的内容放在临时缓存区域中。众所周知,从计算机缓存中读取数据要比从硬盘中读取数据更好。读取数据要快得多。因此,搜索引擎仅向用户显示缓存的一部分。对于存储在硬盘中的页面,搜索引擎将基于网站的权重定期确定是否存在更新,以及它们是否已达到将其放入缓存的标准。如果搜索引擎在判断是否有更新时找到页面网站,如果该页面被删除或网页不符合收录的条件,则该页面也将被删除。

  上面是搜索引擎的组成和页面收录的原理,希望每个seo的人都应该掌握它。

  文章转载任静林的博客:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线