搜索引擎优化的工作原理和主要工作包括哪些内容?

优采云 发布时间: 2021-04-01 06:03

  搜索引擎优化的工作原理和主要工作包括哪些内容?

  1. 1搜索引擎如何工作

  搜索引擎优化的主要任务之一是提高网站的搜索引擎友好性。因此,搜索引擎优化的每个方面都将不可避免地与搜索引擎工作流程相关联。搜索引擎优化的研究实际上是搜索。引擎的工作过程执行反向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

  搜索引擎的主要任务包括:页面爬网,页面分析,页面排序和关键字查询。

  1. 1. 1搜索引擎抓取策略

  搜索引擎抓取网页实际上是为了在 采集上执行数据,这是搜索引擎最基本的工作。搜索引擎的数据采集功能直接确定搜索引擎可以提供的信息量以及的覆盖范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是尝试改善其数据采集的功能。

  搜索引擎使用data 采集程序在上获取数据。我们将此数据采集程序称为蜘蛛程序或机器人程序。

  1.页面抓取过程

  在中,URL是每个页面的入口地址,搜索引擎蜘蛛程序通过URL爬网到该页面。搜索引擎蜘蛛程序从原创URL列表开始,通过URL抓取并存储原创页面;同时,在原创页面中提取URL资源并将其添加到URL列表中。通过这种连续循环,可以从获得足够的页面,如图2-1所示。

  

  图2-1搜索引擎抓取页面的简单过程

  URL是页面的条目,域名是网站的条目。搜索引擎蜘蛛程序通过域名输入网站,以开始对网站页面的抓取。换句话说,搜索引擎要在上抓取页面的首要任务是建立足够大的原创域名列表,然后通过域名输入相应的网站,以便抓取该页面。 网站。

  对于网站,如果要由收录进行搜索,则第一个条件是加入搜索引擎的域名列表。这是加入搜索引擎域名列表的两种常用方法。

  首先,使用搜索引擎提供的网站登录条目将网站的域名提交给搜索引擎。例如,网站的登录地址是。对于提交的域名列表,搜索引擎只会定期对其进行更新。因此,该方法是相对被动的,并且从域名提交到网站为收录需要花费很长时间。以下是针对主流中文搜索引擎的网站提交条目。

  实际上,我们只需要提交网站的首页地址或网站的域名,搜索引擎就会通过该首页上的链接来抓取其他页面。

  第二,通过与外部网站建立链接关系,搜索引擎可以通过外部网站发现我们的网站,从而为网站实现收录。这种方法的主动权在我们自己手中(只要我们有足够的高质量链接),并且收录的速度比主动提交给搜索引擎要快得多。在正常情况下,取决于外部链接的数量,质量和相关性,搜索引擎将在大约2-7天之内对其进行搜索收录。

  2.页面抓取

  通过以上介绍,我相信读者已经掌握了加快由搜索引擎收录搜索的方法。但是,如何增加网站中的页面数收录?首先要了解搜索引擎收录页的工作原理。

  如果将网站页的集合视为有向图,则从指定的页面开始,跟随页面中的链接,将根据特定策略遍历网站中的页面。不断地从URL列表中删除访问过的URL,并存储原创页面,并同时提取原创页面中的URL信息。 URL分为域名和内部URL两类,同时判断URL是否被访问过。尚未访问的URL将添加到URL列表中。递归扫描URL列表,直到用尽所有URL资源。完成这些工作后,搜索引擎可以构建大量的域名列表,页面URL列表,并存储足够的原创页面。

  3.页面抓取方法

  通过以上内容,每个人都了解了搜索引擎爬网页面的过程和原理。但是,在上的亿万个页面中,搜索引擎如何从它们中获取相对重要的页面?这涉及搜索引擎页面的爬网方法。

  页面爬网方法是指搜索引擎用来对页面进行爬网的策略,以便过滤出上相对重要的信息。页面爬网方法的制定取决于搜索引擎对网站结构的理解。如果使用相同的爬网策略,则搜索引擎可以同时在某个网站中对更多页面资源进行爬网,并且它将在网站上停留更长的时间,因此,被爬网的页面数量自然会更多。因此,加深对搜索引擎页面爬网方法的理解将有助于为网站建立友好的结构,并增加爬网页面的数量。

  常见的搜索引擎爬网方法主要包括广度优先,深度优先,大站点优先,高权重优先,暗网页爬网和用户提交等。接下来,我们将介绍这些类型的页面爬网方法及其优缺点。

  为了提高抓取页面的效率和质量,搜索引擎将结合多种策略来抓取页面。例如,首先使用广度优先的方法将爬网范围扩展到尽可能宽的范围,以获取尽可能多的重要页面;然后使用深度优先的方法来爬网更多隐藏的页面;最后,结合暗网爬网,用户提交和其他方法来抓取那些丢失的页面。

  4.如何避免重复爬网

  搜索引擎通过算法消除了页面中的辅助信息(如导航栏,图片等)后,便获得了页面的正文内容。

  5.网页更新策略

  因为搜索引擎无法一次抓取网站中的所有页面,并且网站中的页面数将继续变化,内容也在不断更新,因此搜索引擎还需要爬网的页面会得到维护和更新,以便可以及时获取页面中的最新信息,并且可以爬网更多的新页面。常见的页面维护方法包括:常规爬网,增量爬网,分类和定位爬网,历史更新策略和用户体验策略。

  80/20规则是由意大利著名经济学家威尔弗雷德·帕累托( )发现的。其核心思想是20%的活动可以生产满足80%需求的材料。例如,20%的产品或服务可以创造80%的利润,而20%的内容可以满足80%的用户的需求。

  6.页面存储

  通过以上内容,我们已经知道搜索引擎如何爬网和维护页面。接下来,我们还需要了解在搜寻页面后搜索引擎需要存储哪些信息,以满足下一项工作的数据要求。需求。

  页面是搜索引擎处理网站信息的基础,搜索引擎的大部分工作都在页面上进行。但是,仅依靠页面的内容不能满足搜索引擎的数据处理需求。搜索引擎在抓取页面的过程中能否获得越来越多的有价值的信息,将直接影响搜索引擎的效率和排名结果的质量。因此,当搜索引擎对页面进行爬网时,除了存储原创页面外,它还将附加一系列信息(例如,文件类型,文件大小,最后修改时间,URL,IP地址,爬网时间等)。 ),然后添加这些信息作为执行特定任务的基础。例如,如果文件太大,则搜索引擎可能会放弃它;并且最后修改时间表示页面更新的日期。

  1. 1. 2页分析

  页面爬网只是搜索引擎工作的基本部分。爬网页面后,并不意味着搜索引擎可以立即向最终用户提供查询服务。这是因为用户使用搜索引擎进行查询时,会使用单词或短语。到目前为止,搜索引擎只能提供整个原创页面,而不能返回与用户查询条件匹配的信息。因此,搜索引擎还需要对原创页面进行一系列分析和处理,以迎合用户查询信息的习惯。

  如图2-10所示,搜索引擎首先对存储的原创页面进行索引,然后过滤原创网页的标签信息,并从这些网页中提取文本信息。然后对文本信息进行分段和建立。关键词索引获取页面与关键词之间的对应关系。最后,重新组织所有关键字,以建立关键字和页面之间的对应关系。

  

  图2-10网页分析与处理流程

  1.网站索引

  为了提高页面检索的效率,搜索引擎需要对检索到的原创页面进行索引。由于URL是页面的入口地址,因此对原创页面建立索引实际上就是对页面的URL进行索引,因此可以根据URL快速定位相应的页面。

  2.网络分析

  网页分析是整个网页处理中最重要的部分,包括网页正文信息的提取(即标签信息过滤),分词,建立关键字索引列表和关键字重组。结果,形成了一个关键词与多个原创页面之间的关系,即形成了符合用户查询习惯的信息原型。

  关键字ID

  页码

  关键字

  次数

  位置

  记录1

  1

  1

  K1

  3

  A1,A5,A7

  记录2

  2

  1

  K2

  2

  A3,A9

  记录3

  3

  1

  K3

  3

  A6,A13,A10

  记录4

  4

  1

  K4

  1

  A2

  例如,记录1中的关键字K1在页面上出现3次,对应于页面上的A 1、 A 5、 A7区域,如图2-11所示。

  

  图2-11页面上关键字K1的分布*敏*感*词*

  为了提高关键字的搜索效率,搜索引擎还将为关键字列表建立索引。这样,在将网页和关键字列表都编入索引之后,可以从网页中快速找到某个关键字。

  例如,信息过滤后第0页的内容为“中国广东省深圳市”;然后,在对内容进行分段之后,生成关键字“中国”,“广东省”和“深圳”,并将关键字“建立索引”。这样,根据第0页,搜索引擎可以快速找到关键字“中国”,“广东省”或“深圳”,如图2-12所示。

  

  图2-12页面和关键字之间的对应关系

  但是,用户使用关键字来查找带有相应信息的页面。因此,搜索引擎还需要相应地处理现有信息,并建立关键字与页面URL的对应关系表,以实现关键字快速定位多个页面的能力是下面提到的关键字重组的问题。

  关键字重组是将所有页面中的关键字组合成一个集合。

  在分析和处理原创页面之后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。然而,仅将该页面列表返回给用户常常不能满足用户的需求。因此,搜索引擎将根据页面与用户查询条件的相关性重新排列列表,然后将处理后的列表返回给用户。这是按搜索引擎对页面进行排序的问题,下面将向您介绍。

  1. 1. 3页排序

  用户向搜索引擎提交关键字查询信息后,搜索引擎返回搜索结果页面上与关键字相关的页面列表,并根据关键字的接近度从上到下排列这些页面。有许多因素决定页面的顺序。将介绍几个最常见和重要的因素,包括页面相关性,链接权重和用户行为。

  1.页面相关性

  页面相关性是指页面内容与用户查询的关键字之间的紧密程度,主要由关键字匹配,关键字密度,关键字分布和关键字权重标签确定。

  标签名称

  标签重量值

  10

  50

  搜索引擎使用关键字匹配,关键字密度,关键字分布和权重标签这四个元素的相互限制来改善页面相关性的计算。但是,本节介绍的是一些网站内部可控因素。为了提高排名中信息的质量,搜索引擎还引入了一些外部难以操纵的因素来全面评估页面的相关性,例如外部链接和用户行为。

  2.链接权重

  链接主要分为内部链接和外部链接。当页面的创建者或编辑者计划或编辑页面内容时,会将它们添加到页面中。添加的原因可能是链接指向的页面非常重要。还是大多数用户需要的东西。因此,页面获得的链接越多,则在一定程度上反映出页面越重要,链接权重值越高。

  如果您将整个视为有向图,而将超链接作为有向边,而将网页作为节点,那么根据入度,大多数网页将具有“入度”和“出度”网页的大小,最好通过按度数和入度的页面权重值来计算页面链接的权重。

  假设图2-14是页面之间的关系图,其中V 1、 V 2、 V3是网页;箭头方向表示页面贡献链接或从其他页面获得的链接。以网页V2为例,V2为V 1、 V3贡献了一个链接,并获得了V1的链接。

  

  图2-14页面关系图

  3.用户行为

  搜索引擎完成页面的基本权重计算后,可以向用户显示初步排名结果。但是,该分类结果可能无法满足大多数用户的需求,因此有必要结合其他因素来改善分类结果。例如,计算每个搜索结果的点击次数,以推断用户对搜索结果的偏好。

  用户在搜索结果上的点击行为是衡量页面相关性的因素之一。它是改善排名结果和提高排名结果质量的重要补充。这是一个外部不可控制的因素。

  总而言之,搜索引擎通过计算页面相关性,链接权重值和页面的用户行为得分来获得页面的总权重值;然后,页面的总重量值从高到低。排序并将此排序列表返回给用户。

  W(页面)= W()+ W(链接)+ W(用户)

  公式中,W(页面)是页面权重值,W()是页面相关性值,W(链接)是链接权重值,W(用户)是用户行为得分。

  1. 1. 4个关键字查询

  计算所有页面的权重后,搜索引擎可以为用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求很高(通常以秒为单位),并且在如此短的时间内完成如此复杂的计算是不现实的。因此,搜索引擎需要通过一套有效的机制来处理来自用户的查询。主要应包括:

  其中,上面已经详细描述了关键字重组,页面权重分配和其他任务。接下来,我将介绍搜索引擎如何构建用于信息查询的缓存机制。

  1.查询过程

  首先,我将向您介绍搜索引擎处理用户查询的过程,如图2-15所示。

  

  图2-15查询处理流程

  1.首先细分用户提供的查询条件,并删除无意义的单词或查询条件中的单词,例如,停用词,例如“的”和“得”。

  2.然后使用分词结果作为匹配关键字倒排索引列表的条件。

  3.如果有匹配结果,则将与关键字匹配的所有页面的URL合并到一个列表中。

  4.最后,根据权重值从高到低对匹配的页面进行排序,并返回给用户。

  其中3、 4两个步骤已在用户查询之前完成。

  例如,用户查询“手机图片”,搜索引擎将单词切掉,得到查询条件“手机+图片”;然后在关键词反向索引列表中匹配“手机+图片”;结果获取A,B,C的三个相关页面;然后计算三页的权重值,如果三页的权重关系为B> C> A,则搜索结果列表中三页的顺序为B,C,A。

  2.用户行为

  用户在搜索引擎中的行为主要包括搜索和点击。搜索是用户获取信息的过程,单击是用户获取所需信息后的表现。

  用户的搜索和点击行为收录非常丰富且重要的信息。例如,用户搜索行为包括诸如提交的关键字,提交时间和用户的IP地址之类的信息,而单击行为则包括诸如针对每个结果的点击次数之类的信息。

  搜索引擎可以通过分析用户行为来进一步探索用户需求并提高搜索结果的准确性。例如,根据用户的搜索行为,搜索引擎还可以发现新单词;例如,从用户对搜索结果的点击行为,可以分析用户对每个搜索结果的偏好。

  3.缓存机制

  为了能够在很短的时间内响应用户的查询请求,搜索引擎不仅在用户提交查询信息之前生成了与关键字对应的页面排序列表,而且还需要提供与关键字对应的页面。最常查询的关键字排序列表建立了缓存机制。

  根据统计数据,搜索引擎发现关键字查询的集中度非常明显。查询次数最多的前20%关键字约占查询总数的80%(著名的80/20规则)。因此,只要我们为这20%的关键字设置缓存,就可以满足80%的查询需求。

  因为用户查询时返回的信息主要是与关键字相关的页面的排序列表,所以关键字缓存机制的建立主要是针对与关键字相关的页面的排序列表。缓存常用关键字的页面排序列表后,搜索引擎可以将缓存中的信息返回给用户,这将非常快并且可以满足大多数用户的需求。

  由于上的信息一直在增加,如果搜索引擎每次都向用户返回相同的信息,不仅用户不会获得更高质量的信息,其他网站也将无法向用户显示最新的高质量信息,从而导致信息滞后。因此,搜索引擎还会定期更新缓存中的内容。

  1. 2搜索引擎特征算法

  为了不断提高查询结果的效率和质量,搜索引擎将继续改进其算法。在过去的几年中,主流搜索引擎(尤其是)经历了几次重要的算法升级。这里有一些重要的算法,包括百度的算法。

  1. 2.算法

  (信任索引)是一种算法,该算法根据链接关系以及网页和受信任网页之间的传播深度来计算网页之间的信任度。目的是从上筛选出相对高质量的网页。

  该算法认为,如果网页和可信网页之间存在链接关系,则链接深度越小,网页的可信度指数越高,权重也越大。通过算法,搜索引擎可以在上找到相对权威的网站或网页。如果将它们进一步细分为不同的行业,则可以挖掘出不同行业中的权威网站或网页。该算法属于信任传播模型,主要有两步工作流程。

  1.受信任的Web集合筛选。该算法通过手动查看来判断网页是否为可信网页,然后将可信网页添加到可信网页集(即网页白名单)中。由于上存在大量网页,因此有必要通过相应的算法进行预过滤,然后手动过滤满足条件的网页。

  2.网页信任值的传播计算。 Web信任值的传播涉及两个问题:一个是可信网页上传出链接的数量,另一个是网页与可信网页之间链接的深度。

  1. 2.算法

  该算法基于以下假设:如果网页与不可信或具有欺诈行为的网页之间存在链接,则该网页也可能具有欺诈行为。与该算法相反,该算法的主要目的是从过滤掉低质量的网页。

  该算法的工作原理与该算法非常相似。第一步是确定一组不可信网页(即网页黑名单),然后通过该网页与该不可信网页之间的链接关系和链接距离来计算该网页的不可信值。为了确定网页是否是不受信任的网页。

  1. 2. 3百度算法

  针对垃圾邮件链接发布了百度算法。

  百度于2013年2月19日正式发布了算法1.版本0,主要用于超链接中介,销售链接网站和购买链接网站。这是第一次明确禁止链接买卖。 2013年7月1日,百度正式发布了算法2. 0版本,这次主要针对软文发布平台,包括软文版本网站和软文收益网站。

  这两个算法更新已影响到整个国家/地区网站。如果您的网站具有百度算法禁止的行为,建议您采取以下措施。

  1. 3搜索引擎简介

  搜索引擎优化的主要任务之一是提高网站的搜索引擎友好性,因此学习搜索引擎优化也需要熟悉主要搜索引擎的习惯。下面将介绍四种主流搜索引擎:百度,搜狗和360搜索。

  1. 3.

  这是一个基于全文索引的搜索引擎。它起源于斯坦福大学的一个项目,主要负责Page和Brin。 1998年,公司更名并成立。到目前为止,搜索涉及世界各地的多种语言,并且是当前最具影响力的搜索引擎,如图2-18所示。

  

  图2中文主页6

  2010年3月,由于众所周知的原因,该公司宣布退出中国市场。它在中国大陆的市场份额已经丢失,并且被其他搜索引擎所瓜分。最大的受益者是百度。

  它是目前世界上最大的搜索引擎,并且先进的算法正在争相模仿。因此,加深了解可以帮助我们更好地了解其他搜索引擎。

  在搜索引擎优化方面,我认为与其他搜索引擎存在以下明显差异。

  1. 3. 2百度

  作为中国搜索引擎的统治者,也许百度的技术不如中国。但是,百度在中国大陆的市场份额要大得多。因此,加深对百度的了解也是非常必要的。百度首页如图2-19所示。

  自从退出中国市场以来,百度在中国大陆的搜索市场份额猛增。在最高点,它声称占据了中国大陆搜索市场79%的份额。直到360和搜狗的努力才下降。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线