搜索引擎优化的主要工作原理和主要任务分析方法介绍

优采云 发布时间: 2021-07-29 06:17

  搜索引擎优化的主要工作原理和主要任务分析方法介绍

  1.1搜索引擎工作原理

  搜索引擎优化的主要任务之一是提高网站的搜索引擎友好度。因此,搜索引擎优化的每一个环节都会与搜索引擎的工作流程有着必然的联系。搜索引擎优化的研究实际上是关于搜索引擎的工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

  搜索引擎的主要任务包括:页面抓取、页面分析、页面排序和关键字查询。

  1.1.1搜索引擎爬取策略

  搜索引擎对网页的抓取,其实就是在互联网上进行数据采集,这是搜索引擎最基本的工作。搜索引擎数据采集的能力直接决定了搜索引擎能够提供的信息量和互联网覆盖范围,进而影响搜索引擎查询结果的质量。因此,搜索引擎总是试图提高他们的数据采集能力。

  搜索引擎使用数据采集program来抓取互联网上的数据。我们称这些数据采集program 为蜘蛛程序或机器人程序。

  1.页面抓取过程

  在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序通过URL爬取到该页面。搜索引擎蜘蛛程序从原创URL列表开始,通过URL抓取并存储原创页面;同时,提取原创页面中的URL资源并添加到URL列表中。如此连续循环,就可以从互联网上获取足够多的页面,如图2-1所示。

  

  图2-1 搜索引擎抓取页面的简单流程

  URL为页面入口,域名为网站入口。搜索引擎蜘蛛程序通过域名输入网站,开始对网站页面的爬取。换句话说,搜索引擎抓取互联网页面的首要任务是建立一个足够大的原创域名列表,然后通过域名输入对应的网站,从而抓取网站中的页面@.

  对于网站,如果想被收录搜索到,第一个条件就是加入搜索引擎的域名列表。下面介绍两种常见的加入搜索引擎域名列表的方式。

  首先使用搜索引擎提供的网站登录入口,将网站域名提交给搜索引擎。比如谷歌的网站登录地址是。对于提交的域名列表,搜索引擎只会定期更新。所以这种方式比较被动,提交域名到网站被收录需要很长时间。以下是中文主流搜索引擎网站投稿入口。

  在实际操作中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会根据首页上的链接抓取其他页面。

  其次,通过与外部网站建立链接关系,搜索引擎可以通过外部网站发现我们的网站,从而实现网站的收录。这种做法的主动权在我们自己手中(只要我们有足够多的优质链接),收录比主动提交给搜索引擎要快得多。根据外部链接的数量、质量和相关性,一般情况下,搜索引擎收录会在2-7天左右搜索到。

  2. 页面抓取

  通过上面的介绍,相信读者已经掌握了加速网站被搜索引擎收录的方法。但是,我们如何增加网站 中的页数为收录?这要从了解搜索引擎收录页面的工作原理开始。

  如果把网站页面的集合看作一个有向图,从指定页面开始,按照页面中的链接,按照特定的策略遍历网站中的页面。不断从URL列表中去除访问过的URL,存储原创页面,同时提取原创页面中的URL信息;然后将URL分为域名和内部URL两类,判断该URL是否同时被访问过。将未访问过的 URL 添加到 URL 列表中。递归扫描 URL 列表,直到耗尽所有 URL 资源。完成这些工作后,搜索引擎就可以构建一个庞大的域名列表、页面 URL 列表,并存储足够的原创页面。

  3.页面爬取方法

  通过以上内容,大家已经了解了搜索引擎抓取页面的过程和原理。然而,在互联网上亿万个页面中,搜索引擎如何从中抓取更多相对重要的页面?这涉及到搜索引擎页面的抓取方式。

  页面爬取方法是指搜索引擎为了过滤掉互联网上比较重要的信息而对页面进行爬取的策略。页面爬取方法的制定取决于搜索引擎对网站结构的理解。如果采用同样的爬取策略,搜索引擎可以在同一时间内爬取到某个网站中更多的页面资源,而且会在网站上停留的时间更长,爬取的页面数量自然更多。因此,加深对搜索引擎页面抓取方式的理解,有助于为网站建立一个友好的结构,增加抓取页面的数量。

  常见的搜索引擎爬取方式主要有广度优先、深度优先、大站点优先、高权重优先、暗网爬取和用户提交等,接下来我们将介绍这几种页面爬取方式及其优缺点。

  

  

  

  

  

  

  为了提高抓取页面的效率和质量,搜索引擎会结合多种策略来抓取页面。例如,首先使用广度优先的方式,将爬取范围尽可能扩大,获取尽可能多的重要页面;然后使用深度优先的方式抓取更多隐藏页面;最后结合暗网爬取、用户提交等方式抓取那些漏掉的页面。

  4. 如何避免重复爬取

  在互联网中,信息重复是不可避免的。但是,搜索引擎如何识别重复信息?如何判断哪些信息页是原创,哪些是复制的?什么样的重复信息会被认为是有价值的,哪些可以丢弃?

  网站中的重复信息主要包括转载内容和镜像内容两大类。当搜索引擎分析页面时,它必须具有识别重复信息的能力。因为大量的重复信息不仅占用了巨大的服务器硬盘空间,而且增加了用户查找信息的时间,降低了用户体验。但这并不意味着所有重复的信息都毫无价值。搜索引擎认为转载内容不如原创content重要,给原创content页面更高的权重,而镜像内容几乎被忽略。

  

  

  搜索引擎通过算法剔除页面中的辅助信息(如导航栏、图片等)后,得到页面的正文内容。

  5.网页更新策略

  由于搜索引擎不可能一次性抓取网站中的所有页面,而且网站中的页面数量会不断变化,内容也在不断更新,所以搜索引擎也需要抓取对页面进行维护和更新,以便及时获取页面中的最新信息,并可以抓取更多新页面。常见的页面维护方式包括:定期抓取、增量抓取、分类定位抓取、历史更新策略和用户体验策略。

  80/20 法则是由意大利著名经济学家威尔弗雷德·帕累托 (Wilfred Pareto) 发现的。其核心理念是20%的活动可以生产满足80%需求的材料。例如,20% 的产品或服务创造了 80% 的利润,20% 的内容满足了 80% 用户的需求。

  6.页面存储

  通过上面的内容,我们已经知道了搜索引擎是如何抓取和维护页面的。接下来,我们还需要了解搜索引擎在抓取页面后需要存储哪些信息,以满足接下来工作的数据需求。需要。

  页面是搜索引擎处理网站的基础,搜索引擎的大部分工作都是在页面上进行的。但是,单纯依靠页面内容无法满足搜索引擎的数据处理需求。搜索引擎在抓取页面的过程中能否获得越来越多有价值的信息,将直接影响到搜索引擎的效率和排名结果的质量。因此,搜索引擎在抓取页面时,除了存储原创页面外,还会附加一系列信息(例如文件类型、文件大小、最后修改时间、URL、IP地址、抓取​​时间等)。 ),然后添加这些信息作为执行某项任务的基础。例如,文件太大,可能会被搜索引擎抛弃;而最后修改时间是指页面更新的日期。

  1.1.2页面分析

  页面抓取只是搜索引擎工作的一个基本部分。页面被抓取后,并不意味着搜索引擎可以立即为终端用户提供查询服务。这是因为当用户使用搜索引擎进行查询时,他们会使用一个单词或短语。目前,搜索引擎只能提供整个原创页面,无法返回符合用户查询条件的信息。因此,搜索引擎还需要对原创页面进行一系列的分析处理,以迎合用户查询信息的习惯。

  如图2-10所示,搜索引擎首先对存储的原创页面进行索引,然后过滤原创网页的标签信息,从网页中提取文本信息;然后,对文本信息进行切分,建立关键词索引,得到页面与关键词的对应关系;最后将所有关键词重新整理,建立关键词与页面的对应关系。

  

  图2-10 网页分析处理流程

  1. 网页索引

  为了提高页面检索效率,搜索引擎需要对检索到的原创页面进行索引。由于URL是页面的入口地址,对原页面进行索引实际上就是在对页面的URL进行索引,这样就可以实现根据URL快速定位到对应的页面。

  2. 网络分析

  网页分析是整个网页处理中最重要的部分,包括网页正文信息的提取(即标签信息过滤)、分词、关键字索引列表的建立、关键字重组等。从而形成一个关键词与多个原创页面的关系,即形成符合用户查询习惯的信息原型。

  关键字 ID

  页码

  关键词

  次数

  位置

  记录 1

  1

  1

  K1

  3

  A1、A5、A7

  记录 2

  2

  1

  K2

  2

  A3、A9

  记录 3

  3

  1

  K3

  3

  A6、A13、A10

  记录 4

  4

  1

  K4

  1

  A2

  例如记录1中的关键字K1在页面上出现了3次,对应页面上的A1、A5、A7区域,如图2-11所示。

  

  

  

  关键词重组是将所有页面中的关键词组合成一个集合。

  对原创页面进行分析处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地将这个页面列表返回给用户,往往不能满足用户的需求。因此,搜索引擎会根据页面与用户查询条件的相关性重新排列列表,然后将处理后的列表返回给用户。这就是搜索引擎对页面进行排序的问题,下面给大家介绍一下。

  1.1.3 页面排序

  用户向搜索引擎提交关键词查询信息后,搜索引擎在搜索结果页面返回与该关键词相关的页面列表,这些页面按照关键词的接近程度从上到下排列决定页面顺序的因素有很多。将介绍几个最常见和最重要的因素,包括页面相关性、链接权重和用户行为。

  1. 页面相关性

  页面相关性是指页面内容与用户查询的关键词之间的接近程度,主要由关键词匹配、关键词密度、关键词分布、关键词权重标签决定。

  标签名称

  标签重量值

  10

  50

  搜索引擎利用关键词匹配、关键词密度、关键词分布、权重标签四个要素的相互制约来提高页面相关性的计算。但是,本节介绍的是一些网站内部可控因素。为了提高排名中信息的质量,搜索引擎还引入了一些外部不可操纵的因素来综合评估页面的相关性,例如外部链接和用户行为。

  2.链接权重

  链接主要分为内部链接和外部链接。当页面的创建者或编辑者计划或编辑页面内容时,它们被添加到页面中。添加的原因可能是链接指向的页面很重要。或者大多数用户需要的东西。因此,页面获取的链接越多,在一定程度上反映了页面越重要,链接权重值越高。

  如果把整个互联网看成一个有向图,以超链接为有向边,网页为节点,那么大部分网页都会有“入度”和“出度”,根据入度网页的权重通过in度数和页面权重值来计算页面链接的权重是一个非常好的主意。

  假设图2-14是页面关系图,其中V1、V2、V3为网页;箭头方向表示页面投稿链接或从其他页面获取的链接。以网页V2为例,V2贡献了一个链接到V1、V3,得到了V1的链接。

  

  图2-14 页面关系图

  3.用户行为

  搜索引擎完成页面的基本权重计算后,可以向用户展示初步的排名结果。但是,这种排序结果可能无法满足大多数用户的需求,因此需要结合其他因素对排序结果进行改进。例如,计算每个搜索结果的点击次数,以推断用户对搜索结果的偏好。

  用户在搜索结果上的点击行为是衡量页面相关性的因素之一。是提高排名结果、提高排名结果质量的重要补充。是外部不可控因素。

  综上所述,搜索引擎通过计算页面的页面相关性、链接权重值和用户行为得分,得到页面的总权重值;然后,页面的总权重值从高到低。排序并将此排序列表返回给用户。

  W(页面)= W(相关性)+ W(链接)+ W(用户)

  公式中,W(page)为页面权重值,W(relevance)为页面相关度值,W(link)为链接权重值,W(user)为用户行为得分。

  1.1.4关键字查询

  在计算出所有页面的权重后,搜索引擎可以为用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间(通常以秒为单位)要求非常高,在这么短的时间内完成如此复杂的计算是不现实的。因此,搜索引擎需要通过一套高效的机制来处理来自用户的查询。这应该主要包括:

  其中,关键词重组、页面权重分配等任务在上面已经有详细描述。接下来,我将介绍搜索引擎如何构建信息查询的缓存机制。

  1.查询流程

  首先给大家介绍一下搜索引擎处理用户查询的流程,如图2-15所示。

  

  图2-15 查询处理流程

  1.先对用户提供的查询条件进行分段,删除查询条件中无意义的词或词,例如“的”、“得”等停用词。

  2.然后以分词结果为条件在关键字倒排索引列表中进行匹配。

  3. 如果有匹配结果,则将所有与关键字匹配的页面的 URL 组合成一个列表。

  4. 最后将匹配的页面按照权重值从高到低排序,返回给用户。

  其中3、4的两步已经在用户查询之前完成了。

  比如用户查询“手机图片”,搜索引擎切词得到查询条件“手机+图片”;然后在关键字反向索引列表中匹配“手机+图片”;结果 获取A、B、C三个相关页面;然后计算三个页面的权重值,如果三个页面的权重值关系是B>C>A,那么这三个页面在搜索结果列表中的顺序为B、C、A。

  2.用户行为

  用户在搜索引擎中的行为主要包括搜索和点击。搜索是用户获取信息的过程,点击是用户获得所需信息后的表现。

  用户的搜索和点击行为收录非常丰富和重要的信息。例如,用户搜索行为包括提交的关键词、提交时间、用户IP地址等信息,而点击行为包括每个结果的点击次数等信息。

  搜索引擎可以通过分析用户行为,进一步挖掘用户需求,提高搜索结果的准确性。例如,从用户的搜索行为,搜索引擎也可以发现新词;从用户在搜索结果上的点击行为,可以分析出用户对每个搜索结果的偏好。

  

  3.缓存机制

  为了能够在极短的时间内响应用户的查询请求,搜索引擎在用户提交查询信息之前,不仅会生成与关键字对应的页面排序列表,还需要提供与该关键字对应的页面最常查询关键字排序列表建立缓存机制。

  根据统计,搜索引擎发现关键词查询的集中度非常明显。查询次数最多的前 20% 的关键字约占查询总数的 80%(著名的 80/20 规则)。因此,只要我们为这20%的关键字设置缓存,就可以满足80%的查询需求。

  由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。常用关键词的页面排序列表缓存后,搜索引擎可以将缓存中的信息返回给用户,速度会非常快,可以满足大部分用户的需求。

  因为互联网上的信息在不断增加,如果搜索引擎每次都给用户返回相同的信息,不仅用户得不到更高质量的信息,其他网站也无法显示用户最新的优质信息,造成信息滞后。因此,搜索引擎也会定期更新缓存中的内容。

  1.2搜索引擎特征算法

  为了不断提高查询结果的效率和质量,搜索引擎会不断改进算法。过去几年,主流搜索引擎(尤其是谷歌)经历了几次重要的算法升级。以下是一些重要的算法,包括TrustRank、BadRank和百度的Luluo算法。

  1.2.1TrustRank 算法

  TrustRank(信任指数)是一种算法,它根据网页与可信网页之间的链接关系和传播深度来计算网页之间的信任度。目的是从互联网上筛选出质量相对较高的网页。

  TrustRank 算法认为,如果网页与可信网页之间存在链接关系,则链接深度越小,网页的可信度指数越高,权重越大。通过TrustRank算法,搜索引擎可以在互联网上找到相对权威的网站或网页。如果再细分到不同的行业,可以挖掘出权威的网站或者不同行业的网页。 TrustRank 算法属于信任传播模型,主要有两步工作流程。

  1.可信网页集合过滤。 TrustRank算法通过人工审核判断网页是否属于可信网页,从而将可信网页加入可信网页集合(即网页白名单)。由于互联网上的网页数量众多,需要通过相应的算法进行预过滤,然后手动过滤符合条件的网页。

  2.网页信任值的传播计算。网络信任值的传播涉及两个问题:一是可信网页上的外链数量,二是网页与可信网页之间的链接深度。

  

  1.2.2BadRank 算法

  BadRank 算法基于这样的假设:如果网页与不可信或有作弊行为的网页之间存在链接关系,则该网页也可能有作弊行为。与 TrustRank 算法相反,BadRank 算法的主要目的是过滤掉互联网上的低质量网页。

  BadRand 算法和 TrustRank 算法的工作原理非常相似。第一步是确定一组不可信网页(即网页黑名单),然后根据该网页与不可信网页之间的链接关系和链接距离计算该网页的不可信度。用于确定网页是否为不受信任网页的值。

  1.2.3 百度绿罗算法

  百度绿萝算法针对垃圾链接发布。

  2013年2月19日,百度正式发布了1.0版的路罗算法,主要针对超链接中介,卖链接网站,买链接网站。这是第一次明确禁止链接买卖。 2013年7月1日,百度正式发布了2.0版本的路罗算法。这次主要针对软文发布平台,包括软文release网站和软文益网站。

  这两次算法更新对国内影响最大的网站。如果您的网站有百度​​绿萝算法禁止的行为,建议您采取以下措施。

  1.3搜索引擎介绍

  搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好度,所以学习搜索引擎优化也需要熟悉各大搜索引擎的使用习惯。下面将介绍四种主流搜索引擎:谷歌、百度、搜狗和360搜索。

  1.3.1Google

  Google 是基于全文索引的搜索引擎。它起源于斯坦福大学的 BackRub 项目,主要负责拉里佩奇和谢尔盖布林。 1998 年,BackRub 更名为 Google,并成立了一家公司。到目前为止,谷歌搜索涉及全球多种语言,是目前最具影响力的搜索引擎,如图2-18所示。

  

  图 2-18 谷歌中文主页 6

  2010 年 3 月,由于众所周知的原因,谷歌宣布退出中国市场。其在中国大陆的市场份额有所减少,被其他搜索引擎瓜分。最大的受益者是百度。

  Google 是目前世界上最大的搜索引擎,高级算法竞相模仿。因此,更深入地了解 Google 可以帮助我们更好地了解其他搜索引擎。

  在搜索引擎优化方面,我认为谷歌和其他搜索引擎有以下明显区别。

  1.3.2百度

  作为中文搜索引擎的统治者,或许百度的技术不如谷歌。不过,百度在中国大陆的市场份额远大于谷歌。因此,加深对百度的了解也是非常有必要的。百度主页如图2-19所示。

  自从谷歌退出中国市场后,百度在中国大陆的搜索市场份额一路飙升。在最高点,它声称占据了中国大陆79%的搜索市场份额。直到360和搜狗的努力才谢幕。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线