seo优化搜索引擎工作原理(搜索引擎工作原理非常复杂,我们简单介绍是怎样实现网页排名的)

优采云 发布时间: 2022-01-21 15:11

  seo优化搜索引擎工作原理(搜索引擎工作原理非常复杂,我们简单介绍是怎样实现网页排名的)

  搜索引擎的工作原理很复杂,我们简单介绍一下搜索引擎是如何实现页面排名的。这里介绍的只是真正的搜索引擎技术的一个小插曲,但对于 SEO 人员来说已经足够了。

  

  搜索引擎的工作原理大致可以分为三个阶段:

  1) Crawl and Crawl – 搜索引擎蜘蛛通过以下链接访问网页并获取页面的 HTML 代码并将其存储在数据库中。

  2) 预处理——索引程序对抓取的页面数据进行文本提取、中文分词、索引等,供排名程序调用。

  3)排名——用户输入关键词后,排名程序调用索引数据库数据,计算相关度,然后生成一定格式的搜索结果页面。

  爬行和爬行

  爬取和爬取是搜索引擎工作的第一步,完成数据采集的任务。

  蜘蛛

  搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。搜索引擎蜘蛛访问 网站 页面类似于普通用户使用的浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高爬取和爬取的速度,搜索引擎使用多个蜘蛛并发分布爬取。当蜘蛛访问任何网站 时,它会首先访问网站 根目录下的robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录,则蜘蛛会遵守协议,不会抓取被禁止的 URL。

  跟随链接

  为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来. 整个 Internet 由链接的 网站 和页面组成。理论上,蜘蛛可以从任何页面开始并跟随链接爬到互联网上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采取一定的爬取策略来遍历互联网上的所有页面。

  最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。

  所谓深度优先,就是蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。

  广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一直跟随一个链接,而是爬取页面上的所有一级链接,然后跟随二级页面上找到的链接. 翻到第三页。理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。在实际工作中,蜘蛛的带宽资源和时间都不是无限的,不可能爬取所有页面。事实上,最大的搜索引擎抓取和收录只是互联网的一小部分。

  深度优先和广度优先通常混合使用,这样可以处理尽可能多的 网站(广度优先),以及一些 网站 内页(深度优先)。

  预处理

  提取文本

  今天的搜索引擎仍然基于文本内容。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文本外,还收录大量的HTML格式标签、Javascript程序等不能用于排名的内容。搜索引擎预处理首先要做的就是去除HTML文件中的标签和程序,提取网页中可用于排名处理的文本内容。除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如 Meta 标签中的文本、图片 alt 文本、Flash 文件 alt 文本、链接锚文本等。

  中文分词

  分词是中文搜索引擎特有的一个步骤。搜索引擎存储和处理页面,用户搜索基于单词。英语等语言用空格隔开,搜索引擎索引程序可以直接把句子分成词组。但是,中文单词和单词之间没有分隔符,一个句子中的所有单词和单词都是连接在一起的。搜索引擎必须首先区分哪些词组成一个词,哪些词本身就是一个词。例如,“减肥法”将分为“减肥”和“方法”两个词。

  中文分词基本上有两种方法,一种是基于字典匹配的,一种是基于统计的。

  基于字典匹配的方法是指将一段待分析的汉字与预先制作的字典中的词条进行匹配,从待分析的字符串中扫描字典中已有的词条。分离出一个词。根据扫描方向,基于字典的匹配方法可以分为正向匹配和反向匹配。根据匹配长度优先级的不同,可以分为最大匹配和最小匹配。优先混合扫描方向和长度可以产生不同的方法,例如正向最大匹配和反向最大匹配。字典匹配方法计算简单,其准确性很大程度上取决于字典的完整性和更新。

  基于统计的分词方法是指分析大量文本样本,计算相邻词的统计概率。出现的相邻单词越多,形成单词的可能性就越大。基于统计的方法的优点是它对新出现的词反应更快,也有助于消歧。基于字典匹配和统计的两种分词方法各有优缺点。在实际应用中,分词系统采用两种方法的混合,实现快速高效,并能识别新词、新词,消除歧义。

  搜索引擎对页面的分词取决于词库的大小、准确度和分词算法的质量,而不是页面本身,因此SEO人员对分词的作用很小。唯一能做的就是在页面上使用某种形式来提示搜索引擎某些词应该被当作一个词处理,尤其是当它可能有歧义的时候,比如页面标题中的关键词、h1标签和粗体@ >。如果页面是关于“和服”的内容,那么“和服”这个词可以特别用粗体标出。如果页面是关于“化妆和服装”的,你可以把“服装”这个词加粗。这样,当搜索引擎分析页面时,它就知道粗体字应该是一个词。

  去停用词

  无论英文还是中文,都会有一些在页面内容中出现频率很高,但对内容没有影响的词,比如“的”、“地”、“de”等辅助词,“啊”, “ha”、“ah”等感叹词,“therefore”、“with”、“but”等介词。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英文中常见的停用词the、a、an、to、of等。搜索引擎会在索引页面前去除这些停用词,让索引数据的主题更加突出,减少不必要的计算量.

  去除噪音

  大部分页面也存在一些对页面主题没有贡献的内容,如版权声明文字、导航栏、广告等。以常见的博客导航为例,导航内容如文章categories几乎每个博客页面都会出现历史档案,但这些页面本身与“类别”和“历史”这两个词无关。用户搜索“历史”、“类别”并返回博客文章只是因为这些词出现在页面上是没有意义的,完全无关紧要的。

  因此,这些块都是噪音,只能对页面的主题起到分散作用。搜索引擎需要在不使用嘈杂内容的情况下识别和消除这种噪音并进行排名。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、正文、页脚、广告等区域。网站 上重复出现的块通常是噪音。页面去噪后,剩下的就是页面的主要内容。

  重复数据删除

  搜索引擎还需要对页面进行重复数据删除。同一个文章经常在不同的网站和同一个网站的不同URL上重复出现,搜索引擎不喜欢这样重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验太差了,尽管都是内容相关的。搜索引擎希望只返回一个相同的文章,因此需要在索引之前识别并删除重复的内容。此原理称为重复数据删除。去重的基本方法是计算页面特征的指纹关键词,也就是从页面的主要内容关键词中选出最有代表性的部分(往往是出现频率最高的关键词 @>) ,

  这里的关键词的选择是在分词、去停用词、降噪之后。实验表明,通常选择10个特征关键词可以达到比较高的计算精度,选择更多的词对去重精度的提升贡献不大。了解了搜索引擎的去重算法,SEO人员应该知道,简单地加上“de、地、得”,改变段落的顺序,所谓伪原创,是逃不过搜索引擎去重算法的,因为这不能改变 文章关键词 的特性。此外,搜索引擎的重复数据删除算法可能不仅在页面级别,而且在段落级别。混合不同的 文章

  远期指数也可以简称为指数。

  经过文本提取、分词、去噪、去重后,搜索引擎得到的是唯一的、能反映页面主要内容的基于词的内容。接下来,搜索引擎索引程序可以提取关键词,按照分词程序对单词进行划分,将页面转换为关键词的集合,并将每个关键词的内容记录在这一页。出现频率、出现次数、格式(如在标题标签、粗体、H标签、锚文本等)、位置(如页面第一段等)。这样,每一页就可以记录为一组关键词,其中还记录了每个关键词的词频、格式、位置等权重信息。

  倒排索引

  前向索引还不能直接用于排名。假设用户搜索关键词2,如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词2的文件,然后执行相关性计算。这个计算量不能满足实时返回排名结果的要求。因此,搜索引擎会将正向索引数据库重构为倒排索引,并将文件对应到关键词的映射转换为关键词到文件的映射。在倒排索引中,关键词是主键,每一个关键词都对应着这个关键词出现的一系列文件。这样,当用户搜索某个关键词时,排序程序就会定位到这个<

  链接关系计算

  链接关系计算也是预处理的重要组成部分。页面之间的链接流信息现在收录在所有主要的搜索引擎排名因素中。搜索引擎爬取页面内容后,一定要提前计算出页面上的哪些链接指向了其他哪些页面?每个页面上的传入链接是什么?链接使用什么锚文本?这些复杂的链接指向关系形成 网站@ > 和页面的链接权重。Google PR 值就是这种链接关系最重要的体现之一。其他搜索引擎做类似的计算,虽然他们不称之为 PR。

  特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引各种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序。虽然搜索引擎在识别图像和从 Flash 中提取文本内容方面取得了一些进展,但距离通过读取图像、视频和 Flash 内容直接返回结果的目标还很遥远。图片和视频内容的排名往往基于相关的文字内容。有关详细信息,请参阅下面的集成搜索部分。

  排行

  搜索引擎蜘蛛爬取页面,索引程序计算倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引数据库数据,计算排名并展示给用户。排名原则是直接与用户交互。

  搜索词处理

  搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名原则。搜索词处理包括几个方面:

  中文分词

  与页面索引一样,搜索词也必须用中文进行分段,将查询字符串转换为基于单词的 关键词 组合。分词的原理与分页的原理相同。

  去停用词

  与索引一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名相关性和效率。

  指令处理

  查询词切分后,搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。也就是说,当用户搜索“减肥方法”时,程序分为“减肥”和“方法”两个词。在搜索引擎进行排序时,假设用户正在寻找一个同时收录“减肥”和“方法”的页面。. 仅收录“减肥”但不收录“如何”的页面,或仅收录“如何”但不收录“减肥”的页面被视为不符合搜索条件。当然,这是为了说明原理而极其简化的陈述,实际上我们仍然会看到仅收录 关键词 一部分的搜索结果。此外,

  文件匹配

  搜索词处理完毕后,搜索引擎会根据该词得到一组关键词。文件匹配阶段是查找收录所有关键词的文件。索引部分中提到的倒排索引可以快速完成文件匹配。

  初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往有几十万、几百万,甚至几千万。实时对这么多文件进行相关性计算需要很长时间。事实上,用户不需要知道所有匹配的数十万或数百万个页面,大多数用户只会查看前两个页面,即前二十个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面中最重要的部分。任何使用大量搜索引擎的人都会注意到搜索结果页面通常最多只显示一百个。当用户点击搜索结果页面底部的“下一页”链接时,最多只能看到第一百页,或一千个搜索结果。百度通常会返回 76 页的结果。

  相关性计算

  在选择了初始子集后,将为子集中的页面计算 关键词 相关性。计算相关性是排名原则中最重要的一步。相关性计算是 SEO 搜索引擎算法中最有趣的部分。影响相关性的主要因素包括几个方面。

  关键词频率

  分词后,多个关键词对整个搜索字符串有不同的含义。更常见的词对搜索词的含义贡献较小,而不太常见的词对含义的贡献更大。例如,假设用户输入了搜索词“we Pluto”。“我们”这个词非常常用,出现在很多页面上,它对搜索词“我们冥王星”的识别和相关性贡献很小。查找收录“我们”这个词的页面对搜索排名相关性影响不大,收录“我们”这个词的页面太多。虽然“冥王星”这个词不太常用,但它对搜索词“我们冥王星”的意义贡献更大。那些收录“冥王星”一词的页面 将与搜索词“我们冥王星”更相关。常用词中的终极词是停用词,它对页面的含义没有影响。

  因此,搜索引擎不会对搜索词串中的关键词一视同仁,而是根据常用程度对其进行加权。不常用词权重系数高,常用词权重系数低,排序算法更关注不常用词。假设“我们”和“冥王星”这两个词出现在 A 和 B 页面上。但是“我们”这个词出现在 A 页面的常规文本中,而“冥王星”这个词出现在 A 页面的标题标签中。页面 B 则相反,标题标签中有“我们”,常规文本中有“冥王星”。那么页面 A 将与搜索词“我们冥王星”更相关。

  词频和密度

  一般认为,在没有关键词积累的情况下,搜索词在页面上出现的频率更高,密度也比较高,说明该页面与搜索词的相关性更高。当然,这只是一般规律,实际情况可能并非如此,所以相关性计算中还有其他因素。频率和密度只是因素的一部分,它们越来越不重要。关键词位置和表单 正如在索引部分中提到的,页面 关键词 出现的表单和位置记录在索引库中。关键词 出现在比较重要的位置,例如标题标签、粗体、H1 等,表明页面与 关键词 的相关性更高。这部分是页面上的 SEO 地址。

  关键词距离

  出现分段的 关键词 完全匹配,表明它与搜索词最相关。例如,在搜索“减肥法”时,页面上连续完整出现的“减肥法”字样是最相关的。如果“减肥”和“方法”这两个词没有连续出现,它们看起来更接近,搜索引擎认为它们更相关。

  链接分析和页面权限

  除了页面本身的因素*敏*感*词*的文本等。经过排名过滤和调整以选择匹配文件的子集并计算相关性,大致排名已确定。之后,搜索引擎可能还会有一些过滤算法对排名进行微调,其中最重要的就是进行处罚。虽然有些涉嫌作弊的页面按照正常的权重和相关度计算排在最前面,搜索引擎的惩罚算法可能会在最后一步将这些页面转移到后面。典型的例子有百度的11位、谷歌的负6、负30、负950等算法。

  排名显示

  确定所有排名后,排名程序调用原创页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面片段,而不是调用页面本身的描述标签。

  搜索缓存

  用户的 关键词 搜索中有很大一部分是重复的。根据 2/8 规则,20% 的搜索词占总搜索量的 80%。根据长尾理论,最常见的搜索词占不到80%,但通常头部比较粗,少数搜索词占所有搜索的很大一部分。尤其是在热门新闻方面,每天可能有数百万人搜索完全相同的 关键词。重新处理每次搜索的排名将是一种巨大的浪费。

  搜索引擎会将最常用的搜索词存储在缓存中,用户在搜索时直接从缓存中调用,无需经过文件匹配和相关性计算,大大提高了排名效率,减少了搜索响应时间. 查询和点击日志 搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面,这些都被搜索引擎记录下来,形成一个日志。这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势具有重要意义。

  上面我们简要介绍了搜索引擎的工作原理。当然,实际搜索引擎的工作步骤和算法是非常非常复杂的。上面的说明很简单,但是涉及到很多技术难点。搜索引擎不断优化算法和优化数据库格式。不同搜索引擎的工作步骤也会有所不同。但这基本上是所有主要搜索引擎的基本工作方式,并且在过去几年内不会发生重大变化,并且可以预期在未来几年内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线