搜索引擎优化ppt文档(SEO(二)-搜索引擎工作原理(26页珍藏版))

优采云 发布时间: 2022-02-02 10:16

  搜索引擎优化ppt文档(SEO(二)-搜索引擎工作原理(26页珍藏版))

  《SEO工作原理.ppt》为会员分享,可在线阅读。更多《SEO工作原理.ppt(26页珍藏版)》,请在线搜索一课资料。

  社区可以很好地满足这一需求。第五阶段?我觉得应该是基于概念搜索,还需要市场验证。详情请查看:http://、return、搜索引擎分类、metasearch

  2、Engine,目录搜索引擎,搜索引擎分类,全文搜索引擎,国外最具代表性的全文搜索引擎有:Google、Yahoo、AllTheWeb、AltaVista、Inktomi等,最具代表性的是Yahoo (雅虎通过连续并购和不断研发,已成为顶级全文搜索引擎之一),其他包括ODP(即DMOZ)、LookSmart、About等。著名的元搜索引擎包括InfoSpace、Dogpile、 Vivisimo等返回,全文搜索引擎,它通过从网上提取每一个网站的信息来构建一个数据库,然后从这个数据库中检索出符合用户查询条件的相关记录,最后把这些记录按照一定的排序顺序返回给用户。从搜索结果

  3、从源码来看,全文搜索引擎有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,构建自己的网页数据库,搜索结果直接来自自己的。调用、返回、数据库中的元搜索引擎,当元搜索引擎接受用户的查询请求时,同时在多个其他引擎上进行搜索,并将结果返回给用户。在搜索结果的排列方面,有的直接按照来源排列搜索结果,如Dogpile;有的按照自定义规则重新排列组合结果,比如Vivisimo、return、目录搜索引擎,虽然目录搜索引擎有搜索功能,但严格来说,它' 不是搜索引擎,它只是一个普通的网站,按用户类别显示相关的网站列表。除了这三大类搜索引擎外,还有以下几种非主流形式的搜索引擎(

  4、1)集体搜索引擎:类似于元搜索引擎,不同的是,用户可以从提供的引擎中选择,而不是同时调用多个引擎进行搜索,例如在2002年底搜索引擎。(2)门户搜索引擎:虽然提供服务,但它本身既没有目录也没有网络数据库,搜索结果完全来自其他引擎,如AOL搜索、MSN搜索等。(3)自由链接列表:也是常见的链接交换系统,这类网站一般只简单排列网站的链接条目,少数类别简单,但规模小很多比雅虎和其他类别的。,返回,搜索引擎的工作原理,搜索引擎优化的主要任务之一是提高网站的搜索引擎友好度。因此,搜索引擎优化的每一个环节都与搜索引擎有着必然的联系。研究

  5、搜索引擎优化实际上是搜索引擎工作方式的逆向推理。所以学习 SEO 应该从了解它的工作原理开始。搜索引擎的主要工作包括,1、页面收录2、页面分析3、页面排名4、关键词查询、返回、搜索引擎页面收录,搜索引擎收录页面其实就是互联网上的数据采集,是搜索引擎最基本的工作。搜索引擎的数据采集能力直接决定了搜索引擎能够提供的信息量和互联网的覆盖范围,进而决定了搜索引擎的质量。因此,搜索引擎一直在寻找改进其数据采集 能力的方法。1、页面收录进程<

  6、URL 是页面入口,域名是网站 入口。搜索引擎在互联网上爬取页面的首要任务是建立一个足够大的域名列表,然后通过域名输入对应的网站来爬取页面。所以对于网站来说,如果要被搜索引擎收录搜索到,第一个条件就是加入搜索引擎的域名列表。下面介绍两种常用的加入搜索引擎域名列表的方法。第一:使用搜索引擎提供的网站登录入口,将网站域名提交给搜索引擎,例如:谷歌的登录地址为http://(方法比较被动,提交域名到网站需要很长时间才能成为收录)第二:通过与外部的网站建立链接关系,搜索引擎可以通过外部的网站发现我们的网站,从而实现收录到网站。(主动权在我们手里,收录很快,一般27天就会收录,

  7、返回,页面原理收录,返回,如果将网站页面组成的集合视为有向图,从指定页面开始,沿着页面中的链接,根据特定的策略遍历 网站 中的页面。不断从URL列表中移除访问过的URL,存储原创页面,同时提取原创页面中的URL信息;然后将URL分为域名和内部URL两类,判断该URL是否被访问过。未访问的 URL 将添加到 URL 列表中。递归描述 URL 列表,直到所有 URL 资源耗尽。经过这些工作,搜索引擎可以构建一个庞大的域名和页面URL列表,并存储足够的原创页面。目的是为了过滤掉互联网上比较重要的信息。页面 收录 公式

  8、取决于搜索引擎对网站结构的理解。加深对搜索引擎页面收录方式的理解,有利于为网站建立友好的结构,提供收录的页面数量。这里有三个页面收录方法 A、广度优先(水平) B、深度优先(垂直) C、用户提交 为了增加要抓取的页面数量,我们可以采取组合方式来抓取页面. 以广度优先的方式爬取尽可能多的重要页面;然后使用深度优先的方式爬取更多隐藏页面;最后结合用户提交的信息去爬那些漏掉的页面,如何避免重复收录,搜索引擎在分析页面时必须具备识别重复信息的能力,因为大量的重复信息不仅占用巨大的服务器硬盘空间,还会增加用户搜索信息的时间,影响用户体验。重复信息主要包括转载内容和镜像

  9、两种内容。(1)转载页:搜索引擎将网页内容分成N个区域,如果有M个区域相同或相似,则搜索引擎认为这些页面为转载页。(2)@ >镜像页面:将页面分成N个区域,如果这N个区域的内容完全相同,则认为这些页面是彼此的镜像页面。(3)Mirror网站:有形成镜像主要有两种方式网站情况:第一种是多个zone名称或IP指向同一个服务器的同一个物理地址;另一种是整个网站内容复制到服务器使用不同的域名或者IP,搜索引擎首先判断这些网站是否是@k17@的首页 与首页直接链接的页面是彼此的镜像页面。如果是,那就是镜像页面网站,页面维护方式,因为搜索引擎不可能一次爬到网站的所有页面,以及网站@中的页面数量> 不断变化,内容不断变化

  10、更新。因此,搜索引擎也需要对爬取的页面进行维护,以便及时获取页面中的最新信息,爬取更多的新页面。常见的页面维护方式有以下几种:(1)定期爬取:也叫周期性爬取,即定期对已经收录的页面进行全面更新,将捕获到的新页面替换为原来的老页面,删除不存在的页面,存储新发现的页面。周期长,谷歌一般30-60天更新一次。(适用于维护页面少,内容更新慢的人网站 @>) (2)增量爬取:就是通过定期监控爬取的页面来更新和维护页面。基于重要页面承载重要内容的思想和80/20法则,搜索引擎只需定期对网站中的一些重要页面进行监控,即可获取网站中相对重要的信息。(爬行时间短,

  为了满足用户信息查询的习惯,进行了一系列的分析处理。如图所示,搜索引擎首先对存储的原创页面进行索引,然后过滤原创网页的标签信息,从中提取网页的文本内容;然后,对文本内容进行划分,创建关键词的索引,

  12、 获取页面与关键字的对应关系;最后,对所有关键词进行重组,建立关键词与页面的对应关系。主要包括:1、网页索引:索引原创页面其实就是索引页面的URL2、网页分析、网页、文字信息、关键词列表、关键词索引、网页、提取、分词、索引、重组、文本信息提取:网页中非文本信息的过滤,最重要的是网页中标签信息的过滤。分词/分词,返回,分词/分词,从原创页面中提取文本信息后,以获取与用户相关的数据,搜索引擎还需要对页面中的内容进行细分,从而形成与用户查询条件匹配的关键词信息列表。在中文环境下,分词算法直接影响网页内容经过分词处理后会生成什么样的关键词。

  13、关键词是否符合用户的搜索习惯。因此,分词的结果直接决定了搜索引擎能否提供符合用户查询条件的信息。(1)字符串匹配分词:基于一个足够大且权威的“字典”。如果页面上的单词与“字典”中的单词匹配,则为命中,可以得到一个单词或短语。(2)统计分词:就是根据两个相邻词出现的概率来判断两个相邻词的组合是否会形成一个词。常与“字典”连用来识别一些新词。(3)关键词索引:分词后形成关键词列表。该列表包括关键字所在网页的编号、关键字编号、关键字出现的次数以及关键字在文档中的位置。建立索引以更快地搜索某个关键字。(示例)(4)关键词重组:对所有页面的关键词进行重组

  14、个词组成一个集合,建立一个关键词索引,形成一个唯一的关键词列表集合。这样就可以通过特定的关键字找到一个或多个网页,返回,并对页面进行排序。用户向搜索引擎提交关键词查询信息后,搜索引擎会在结果页返回与该关键词相关的页面。这些页面通过接近关键字从上到下排列。介绍几个决定排名顺序的常见因素。(1)页面相关性:指页面内容与用户查询的关键词的接近程度(2)链接权重:一个页面获得的链接越多,越重要,链接权重值越高。内部链接:指网站内部页面之间的链接关系,反映了网站内某个页面的内部识别程度。理论上,一个页面获得的链接质量越高,数量越多,外部链接的重要性就越大:参考这个

  15、本站以外的页面之间的链接关系。由于它不能被操纵,它是决定整个页面权重的最重要因素。默认权重分布:在链接权重补偿方面,搜索引擎使用页面被抓取的日期作为参考因素。它认为,一个页面在单位时间内拥有的链接质量和数量越高,该页面的质量就越高。(3)用户行为:用户对搜索结果的点击行为是衡量页面相关性的因素之一。W(page)=W(relevance)+W(link)+W(user, return, page relevant,页面相关性是指页面内容与用户查询的关键词的接近程度,主要由关键词匹配度、关键词密度、关键词分布、关键词权重标签等因素决定。(1)

  16、引擎根据关键词密度值来衡量一个关键词在页面中的词频是否合理。关键词密度是关键词出现的频率与网页总词汇量的比值。(3)关键词分布:指关键词出现在页面的位置,位置不同不一定会影响页面的相关性。(4)关键词权重标签:在网页中,web页面创建者使用不同的 HTML 标签来为页面中的相关内容实现不同的视觉效果(字体样式、字体大小、颜色等),灵活使用各种 HTML 标签也有助于提高页面相关性。在页面权重分配中,根据标签的作用,HTML标签可以分为“权重标签”(10)、(50) 和非重量标签 (,) 。点击查看示例,返回,关键词匹配度,关键词匹配度是指页面P中的内容与用户提交的关键词K的匹配度。

  17、度,页面P中是否存在与查询关键字K匹配的内容,主要由两个因素决定。关键词K在页面P中出现的次数为了计算关键词匹配度,搜索引擎为每个页面分配一个关键词匹配值,该值由关键词在页面中出现的次数决定。如果关键字在页面上出现一次,则关键字匹配值为 10;那么,如果一个关键词在页面上出现10次,则关键词匹配值=10*10,return,example,return,通过匹配key描述词匹配度、关键词密度、关键词分布和关键词权重标签后,我们计算页面相关度计算公式:W(relevance)=W(match)+W(density)+W(position)+W(tag)(页面相关度)=(关键词匹配值)+(关键词密度值

  18、)+(关键词分布值)+(标签权重值) 比如一个页面的内容是: 搜索引擎优化 根据前面的假设,对于关键词“搜索引擎优化”,由于出现只有一次,关键字匹配值W(match)=10;关键词密度为50%,关键词密度值W(density)=20;关键词出现在页面顶部,关键词分布值W(position)=50;权重标签在关键词“搜索引擎优化”高亮时出现一次,则标签权重值W(tag)=10;即W(relevance)=10+20+50+10=90,关键词查询,搜索引擎查询功能的实现很复杂,用户返回结果所需的时间也很高(秒级) .

  19、搜索引擎需要通过一种高效的机制来处理来自用户的查询。主要包括(1)在用户发出查询请求前完成查询关键字的反向索引和相关页面的权重计算。(2)对查询频率最高的关键字对应的页面进行排序)列表建立缓存机制。下面介绍搜索引擎如何建立信息查询的缓存机制1、查询过程2、用户行为3、缓存机制,返回,查询过程,返回,1)首先对用户提供的查询条件进行切分,删除查询条件中无意义的词或词,如(de,de)(2),然后将切分结果作为关键词反向中的条件索引列表匹配。(< @3)如果有匹配结果,所有匹配关键字的页面将形成一个列表。(4) 最后将匹配到的页面按照权重值从高到低排序,返回给用户

  20、,用户行为,返回,用户在搜索引擎中的行为主要包括搜索和点击。搜索是用户获取信息的过程,点击是用户获得所需信息后的表现。通过对用户行为的分析,搜索引擎可以进一步挖掘用户的需求,提高搜索结果的准确性。(1)搜索:是用户获取信息的方式(2)点击:是用户找到所需信息后的表现,反映了用户对信息的关注度。因此,用户的点击上链接也是衡量页面相关性的因素之一,是衡量页面相关性的重要补充,缓存机制,返回,为了在短时间内响应用户的查询请求,除了搜索引擎在用户提交查询信息之前生成关键词页面排名列表之外,还需要对查询频率最高的关键词对应的页面排序列表建立缓存机制。经过统计,搜索引擎找到一组关键词查询

  21、现象很明显。查询次数最多的前 20% 的关键字约占总查询量的 80%(80/20 规则)。因此,只要为这 20% 的关键字建立缓存,就可以满足 80% 的查询需求。, 高级算法被模仿。一个。谷歌非常重视链接关系 b. 分词算法与其他中文搜索引擎有一定的区别 c.Google 对待新的 网站 d 非常严格。在处理垃圾邮件方面,虽然还是以人类为主,但与其他搜索引擎相比,谷歌垃圾邮件检测算法还是比较成熟的。(2)百度:是中国搜索引擎的佼佼者。a.如果决定页面权重的因素分为内部因素和外部因素,在百度,影响页重的内部因素和外部因素的差距比较小。湾。百度对新的网站相对宽松,导致搜索结果中出现大量垃圾信息,影响用户体验。C。它非常重视链接关系,会对优质页面链接的页面给予非常高的价值。权重,但忽略了链接关系中 网站 的主题相关性。d。百度对搜索结果有很强的人工干预,谢谢 并且会给高质量页面链接的页面一个非常高的价值。权重,但忽略了链接关系中 网站 的主题相关性。d。百度对搜索结果有很强的人工干预,谢谢 并且会给高质量页面链接的页面一个非常高的价值。权重,但忽略了链接关系中 网站 的主题相关性。d。百度对搜索结果有很强的人工干预,谢谢

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线