搜索引擎优化原理(搜索引擎工作原理优化的一个主要任务【1.1搜索引擎】 )

优采云 发布时间: 2021-10-11 08:20

  搜索引擎优化原理(搜索引擎工作原理优化的一个主要任务【1.1搜索引擎】

)

  1.1 搜索引擎的工作原理

  搜索引擎优化的主要任务之一是提高网站的搜索引擎友好度。因此,搜索引擎优化的每一个环节都会与搜索引擎的工作流程有着必然的联系。搜索引擎优化的研究实际上是搜索引擎在工作过程中的逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

  搜索引擎的主要任务包括:页面抓取、页面分析、页面排序和关键字查询。

  1.1.1 搜索引擎爬取策略

  搜索引擎对网页的抓取,其实就是互联网上的数据采集,这是搜索引擎最基本的工作。搜索引擎数据采集的能力直接决定了搜索引擎能够提供的信息量和互联网覆盖范围,进而影响搜索引擎查询结果的质量。因此,搜索引擎总是试图提高他们的数据采集能力。

  搜索引擎使用数据采集程序来抓取互联网上的数据。我们称这些数据采集 程序为蜘蛛程序或机器人程序。

  1. 页面爬取过程

  在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛通过URL爬取到该页面。搜索引擎蜘蛛程序从原创URL列表开始,通过URL抓取并存储原创页面;同时,提取原创页面中的URL资源并添加到URL列表中。通过这样的连续循环,可以从互联网上获取足够多的页面,如图2-1所示。

  

  图2-1 搜索引擎抓取页面的简单流程

  URL是页面的入口,域名是网站的入口。搜索引擎蜘蛛程序通过域名输入网站开始对网站页面的抓取。换句话说,搜索引擎抓取互联网页面的首要任务是建立一个足够大的原创域名列表,然后通过域名输入对应的网站,从而抓取页面网站。

  对于网站,如果你想被搜索引擎收录搜索到,第一个条件是加入搜索引擎的域名列表。下面介绍两种常见的加入搜索引擎域名列表的方法。

  首先使用搜索引擎提供的网站登录入口,将网站的域名提交给搜索引擎。比如谷歌的网站登录地址是。对于提交的域名列表,搜索引擎只会定期更新。所以这种方式比较被动,域名提交给网站是收录需要很长时间。以下是网站针对主流中文搜索引擎的投稿入口。

  在实际操作中,我们只需要提交网站的首页地址或网站的域名,搜索引擎会根据首页上的链接抓取其他页面。

  其次,通过与外部网站建立链接关系,搜索引擎可以通过外部网站发现我们的网站,从而实现网站的收录。这种方式的主动权在我们自己手中(只要我们有足够多的优质链接),收录的速度比主动提交给搜索引擎要快很多。根据外部链接的数量、质量和相关性,一般情况下,搜索引擎收录会在2-7天左右搜索到。

  2. 页面抓取

  通过上面的介绍,相信读者已经掌握了加快网站被收录搜索到的方法。但是,如何增加网站中收录的页数呢?这要从了解搜索引擎收录页面的工作原理说起。

  如果把网站页面的集合看作一个有向图,从指定页面开始,沿着页面中的链接,按照特定的策略遍历网站中的页面。不断将访问过的URL从URL列表中移除,并存储原创页面,同时提取原创页面中的URL信息;URL分为域名和内部URL两类,同时判断该URL是否被访问过。未访问的 URL 添加到 URL 列表中。递归扫描 URL 列表,直到耗尽所有 URL 资源。这些工作完成后,搜索引擎就可以构建一个庞大的域名列表、页面 URL 列表,并存储足够的原创页面。

  3. 页面爬取方法

  通过以上内容,大家已经了解了搜索引擎抓取页面的过程和原理。然而,在互联网上亿万个页面中,搜索引擎如何从中抓取更多相对重要的页面?这涉及到搜索引擎页面的抓取方式。

  页面爬取方法是指搜索引擎对页面进行爬取的策略,目的是过滤掉互联网上比较重要的信息。页面爬取方法的制定取决于搜索引擎对网站结构的理解。如果使用相同的爬取策略,搜索引擎可以同时在某个网站中抓取更多的页面资源,并且会在网站上停留更长时间。自然,更多的页面被抓取。因此,加深对搜索引擎页面抓取方式的理解,有助于为网站建立友好的结构,增加抓取页面的数量。

  常见的搜索引擎爬取方式主要有广度优先、深度优先、大站点优先、高权重优先、暗网爬取和用户提交等,下面将详细介绍这几种页面爬取方式及其优缺点。

  说明为了提高抓取页面的效率和质量,搜索引擎会结合多种策略来抓取页面。例如,首先使用广度优先的方式,将爬取范围尽可能扩大,获取尽可能多的重要页面;然后使用深度优先的方式抓取更多隐藏页面;最后结合暗网爬取、用户提交等方式抓取那些漏掉的页面。

  4. 如何避免重复爬取

  搜索引擎通过算法剔除页面中的辅助信息(如导航栏、图片等)后,得到页面的正文内容。

  5. 网页更新策略

  由于搜索引擎不可能一次性抓取网站中的所有页面,而且网站中的页面数会不断变化,内容也在不断更新,搜索引擎也需要对已爬取的页面进行维护和更新,以便及时获取页面最新信息,爬取更多新页面。常见的页面维护方式包括:定期爬取、增量爬取、分类定位爬取、历史更新策略和用户体验策略。

  80/20 法则是由意大利著名经济学家威尔弗雷德·帕累托 (Wilfred Pareto) 发现的。它的核心思想是,20%的活动可以生产出满足80%需求的材料。例如,20%的产品或服务创造了80%的利润,20%的内容满足了80%用户的需求。

  6. 页面存储

  通过上面的内容,我们已经知道了搜索引擎是如何抓取和维护页面的。接下来,我们需要了解搜索引擎在抓取页面后需要存储哪些信息,以满足接下来工作的数据需求。

  页面是搜索引擎处理网站上信息的基础,搜索引擎的大部分工作都是在页面上进行的。但是,单纯依靠页面内容无法满足搜索引擎的数据处理需求。搜索引擎在抓取页面的过程中能否获得越来越多有价值的信息,将直接影响到搜索引擎的效率和排名结果的质量。因此,搜索引擎在抓取页面时,除了存储原创页面外,还会附加一系列信息(例如文件类型、文件大小、最后修改时间、URL、IP地址、抓取​​时间等)。 ),然后添加这些信息作为执行某项任务的基础。例如,文件太大,可能会被搜索引擎抛弃;

  1.1.2页分析

  页面抓取只是搜索引擎工作的一个基本部分。页面被抓取后,并不意味着搜索引擎可以立即为终端用户提供查询服务。这是因为当用户使用搜索引擎进行查询时,他们会使用一个单词或短语。目前,搜索引擎只能提供整个原创页面,无法返回符合用户查询条件的信息。因此,搜索引擎还需要对原创页面进行一系列的分析处理,以迎合用户查询信息的习惯。

  如图2-10所示,搜索引擎首先对存储的原创页面进行索引,然后过滤原创网页的标签信息,从网页中提取文本信息;然后,对文本信息的词进行裁剪,建立关键词索引,得到页面与关键词的对应关系;最后,重新组织所有关键词,建立关键词与页面的对应关系。

  

  图2-10 网页分析处理流程

  1. 网页索引

  为了提高页面检索的效率,搜索引擎需要对抓取到的原创页面进行索引。由于url是页面的入口地址,索引原页面实际上就是索引页面的url,这样就可以根据url快速进行索引。找到相应的页面。

  2. 网络分析

  网页分析是整个网页处理中最重要的部分,包括网页正文信息的提取(即标签信息过滤)、分词、关键字索引列表的建立、关键字重组等。从而形成一个关键词与多个原创页面的关系,即形成符合用户查询习惯的信息原型。

  关键字 ID

  页码

  关键词

  频率

  地点

  记录 1

  1

  1

  K1

  3

  A1、A5、A7

  记录2

  2

  1

  K2

  2

  A3、A9

  记录3

  3

  1

  K3

  3

  A6、A13、A10

  记录 4

  4

  1

  K4

  1

  A2

  例如,记录1中的关键字K1在页面上出现了3次,对应页面上的A1、A5、A7区域,如图2-11所示。

  

  图2-11 关键词K1在页面上的分布*敏*感*词*

  为了提高关键词的搜索效率,搜索引擎也会为关键词列表建立索引。这样,在对网页和关键字列表进行索引后,可以快速定位到网页中的某个关键字。

  例如,信息过滤后第0页的内容为“中国广东省深圳市”;然后对内容进行切分后生成关键词“中国”、“广东省”、“深圳”,并对关键词进行索引。这样,搜索引擎可以根据第0页快速定位到关键词“中国”、“广东省”或“深圳”,如图2-12所示。

  

  图2-12 页面与关键字的对应关系

  但是,用户使用关键字来查找带有相应信息的页面。因此,搜索引擎也需要对已有的信息进行相应的处理,建立关键词与页面网址的对应关系表,从而实现基于关键词的快速关键词。针对多个页面的功能就是下面提到的关键词重组问题。

  关键字重组是指所有页面中的关键字组成一个集合。

  在对原创页面进行分析处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地将这个页面列表返回给用户,往往不能满足用户的需求。因此,搜索引擎会根据页面与用户查询条件的相关性重新排列列表,然后将处理后的列表返回给用户。这就是搜索引擎对页面进行排序的问题,下面会为大家介绍。

  1.1.3页排序

  用户向搜索引擎提交关键词查询信息后,搜索引擎在搜索结果页面返回与该关键词相关的页面列表,这些页面按照与关键词的接近程度从上到下排列。决定页面顺序的因素有很多。将介绍几个最常见和最重要的因素,包括页面相关性、链接权重和用户行为。

  1. 页面相关性

  页面相关性是指页面内容与用户查询的关键词之间的接近程度,主要由关键词匹配程度、关键词密度、关键词分布、关键词权重标签决定。

  标签名称

  标签重量

  10

  50

  搜索引擎利用关键词匹配、关键词密度、关键词分布、权重标签四个要素的相互制约来提高页面相关性的计算。但是,本节介绍的是一些网站内部可控因素。为了提高排名中信息的质量,搜索引擎还引入了一些外部不可操纵的因素来综合评估页面的相关性,例如外部链接和用户行为。

  2. 链接权重

  链接主要分为内部链接和外部链接。当网页制作者或编辑者计划或编辑页面内容时,它们被添加到页面中。加入的原因可能是链接指向的页面很重要或者很大。部分用户需要。因此,页面获得的链接越多,在一定程度上反映了页面越重要,链接权重值越高。

  如果把整个互联网看成一个有向图,超链接是有向边,网页是节点,那么大部分网页都会有“入度”和“出度”,根据入度的数量和规定的网页。根据入度页面权重值计算页面链接的权重是一个非常好的主意。

  假设图2-14为页面关系图,其中V1、V2、V3为网页;箭头方向表示页面投稿链接或从其他页面获取的链接。以网页V2为例,V2贡献了一个到V1、V3的链接,得到了一个到V1的链接。

  

  图2-14 页面关系图

  3. 用户行为

  搜索引擎完成页面的基本权重计算后,可以向用户展示初步的排名结果。但是,这种排序结果可能无法满足大多数用户的需求,因此需要结合其他因素对排序结果进行改进。例如,计算每个搜索结果的点击次数以推断用户对搜索结果的偏好。

  用户在搜索结果上的点击行为是衡量页面相关性的因素之一。是提高排名结果、提高排名结果质量的重要补充。这是外部不可控因素。

  综上所述,搜索引擎通过计算页面相关性、链接权重值和用户行为的得分,得到页面的总权重值;该排序列表返回给用户。

  即W(页面)= W(相关性)+ W(链接)+ W(用户)

  公式中,W(page)为页面权重值,W(relevance)为页面相关度值,W(link)为链接权重值,W(user)为用户行为得分。

  1.1.4关键字查询

  在计算出所有页面的权重后,搜索引擎可以为用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间(通常以秒为单位)要求非常高,在这么短的时间内完成如此复杂的计算是不现实的。因此,搜索引擎需要通过一套高效的机制来处理来自用户的查询。这应该主要包括:

  其中,关键词重组、页面权重分配等任务在上面已经有详细的描述。接下来,我将介绍搜索引擎如何构建信息查询的缓存机制。

  1. 查询过程

  首先给大家介绍一下搜索引擎处理用户查询的流程,如图2-15所示。

  

  图2-15 查询处理流程

  1. 先对用户提供的查询条件进行分段,删除查询条件中无意义的词或词,例如“的”、“得”等停用词。

  2. 然后以分词结果为条件,在关键字倒排索引列表中进行匹配。

  3. 如果有匹配结果,则将所有与关键字匹配的页面的 URL 组合成一个列表。

  4. 最后将匹配的页面按照权重值从高到低排序,返回给用户。

  其中3、4两步已经在用户查询之前完成了。

  例如,用户查询“手机图片”,搜索引擎切词得到查询条件“手机+图片”;然后在关键字反向索引列表中匹配“手机+图片”;结果是 A 、 B 和 C 三个相关页面;然后计算三个页面的权重值,如果三个页面的权重值关系是B>C>A,那么这三个页面在搜索结果列表中的顺序为B、C、A。

  2. 用户行为

  用户在搜索引擎中的行为主要包括搜索和点击。搜索是用户获取信息的过程,点击是用户获取所需信息后的表现。

  用户的搜索和点击行为收录了非常丰富和重要的信息。例如,用户搜索行为包括提交的关键词、提交时间、用户IP地址等信息,而点击行为包括每个结果的点击次数等信息。

  搜索引擎可以通过分析用户行为进一步挖掘用户需求,提高搜索结果的准确性。例如,从用户的搜索行为,搜索引擎也可以发现新词;从用户对搜索结果的点击行为,可以分析出用户对每个搜索结果的偏好。

  3. 缓存机制

  为了在极短的时间内响应用户的查询请求,搜索引擎不仅要在用户提交查询信息之前生成该关键字对应的页面排名表,还需要建立与该关键词对应的页面排名表。经常查询的关键字。缓存机制。

  经过统计,搜索引擎发现关键词查询的集中度非常明显。查询次数最多的前 20% 的关键字约占查询总数的 80%(著名的 80/20 规则)。因此,只要我们为这20%的关键字建立一个缓存,就可以满足80%的查询需求。

  由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。常用关键字的页面排序列表缓存后,搜索引擎可以将缓存中的信息返回给用户,速度会非常快,可以满足大部分用户的需求。

  由于互联网上的信息在不断增加,如果搜索引擎每次都向用户返回相同的信息,不仅用户得不到更高质量的信息,其他网站也无法显示用户最新的优质信息,造成信息滞后。因此,搜索引擎也会定期更新缓存中的内容。

  1.2搜索引擎特征算法

  为了不断提高查询结果的效率和质量,搜索引擎会不断改进自己的算法。过去几年,主流搜索引擎(尤其是谷歌)经历了几次重要的算法升级。这里介绍几个重要的算法,包括TrustRank、BadRank和百度的Luluo算法。

  1.2.1TrustRank算法

  TrustRank(信任指数)是一种根据网页与可信网页之间的链接关系和传播深度计算网页之间信任程度的算法。目的是从互联网上筛选出质量相对较高的网页。

  TrustRank算法认为,如果网页与可信网页之间存在链接关系,则链接深度越小,网页的可信度指数越高,权重越大。通过TrustRank算法,搜索引擎可以在互联网上找到相对权威的网站或网页。如果再细分到不同的行业,可以挖掘出权威的网站或者不同行业的网页。TrustRank 算法属于信任传播模型,主要有两步工作流程。

  1. 受信任的 Web 集合过滤。TrustRank算法通过人工审核判断网页是否属于可信网页,从而将可信网页加入可信网页集合(即网页白名单)。由于互联网上的网页数量众多,需要通过相应的算法进行预过滤,然后手动过滤符合条件的网页。

  2. 网页信任值的传播计算。网络信任值的传播涉及两个问题:一是可信网页上的外链数量,二是网页与可信网页之间的链接深度。

  1.2.2BadRank 算法

  BadRank算法是基于这样的假设:如果某个网页与不可信或作弊的网页之间存在链接关系,则该网页也可能存在作弊行为。与 TrustRank 算法相反,BadRank 算法的主要目的是从 Internet 中过滤掉低质量的网页。

  BadRand 算法和 TrustRank 算法的工作原理非常相似。第一步是确定一组不可信网页(即网页黑名单),然后根据该网页与不可信网页的链接关系和链接距离计算该网页的不可信值。确定网页是否不受信任。

  1.2.3 百度绿萝算法

  百度绿萝算法针对垃圾链接发布。

  百度于2013年2月19日正式发布绿萝算法1.0版本,主要面向超链接中介,卖链接网站和买链接网站。这是首次明确禁止链接交易。. 2013年7月1日,百度正式发布了露洛算法2.0版本,这次主要面向软文发布平台,包括软文发布网站和软文好处网站。

  这两次算法更新已经影响了国内的大部分网站。如果您的网站有百度绿萝算法禁止的行为,建议您采取以下措施。

  1.3搜索引擎介绍

  搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好度,所以学习搜索引擎优化也需要熟悉各大搜索引擎的使用习惯。下面将介绍四种主流搜索引擎:谷歌、百度、搜狗和360搜索。

  1.3.1Google

  谷歌是一个基于全文索引的搜索引擎。它起源于斯坦福大学的 BackRub 项目,主要负责拉里佩奇和谢尔盖布林。1998 年,BackRub 更名为 Google,并成立了一家公司。迄今为止,谷歌搜索涉及全球多种语言,是目前最具影响力的搜索引擎,如图2-18所示。

  

  图 2-18 谷歌中文主页 6

  2010年3月,由于众所周知的原因,谷歌宣布退出中国市场,在中国大陆的市场份额有所减少,被其他搜索引擎瓜分。最大的受益者是百度。

  谷歌是目前全球最大的搜索引擎,高级算法争相模仿。因此,更深入地了解谷歌可以帮助我们更好地了解其他搜索引擎。

  在搜索引擎优化方面,我认为谷歌和其他搜索引擎有以下明显的区别。

  1.3.2 百度

  作为中国搜索引擎的霸主,或许百度的技术不如谷歌。不过,百度在中国大陆的市场份额远大于谷歌。因此,加深对百度的了解也是非常有必要的。百度主页如图2-19所示。

  自从谷歌退出中国市场后,百度在中国大陆的搜索市场份额一路飙升。在最高点,它声称占据了中国大陆79%的搜索市场份额。直到360和搜狗的努力才走下坡路。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线