解密seo:搜索引擎优化与网站成功战略( 【平凉SEO】深度优先查找就是在查找树的应用)

优采云 发布时间: 2021-11-10 04:03

  解密seo:搜索引擎优化与网站成功战略(

【平凉SEO】深度优先查找就是在查找树的应用)

  平凉SEO:搜索引擎工作流程与SEO

  追踪链接

  为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随页面上的链接从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛称号的由来。最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。【平凉SEO】

  深度优先搜索

  深度优先搜索是在搜索树的每一层只展开一个子节点,继续深度游走,直到不能再游走(到达叶节点或受深度约束),然后从当前节点返回到上一个节点。继续向另一个方向行驶。这种方法的搜索树是从树的根部逐个分支逐步构建的。【平凉SEO】

  深度优先搜索也称为垂直搜索。因为一棵可解的问题树可能收录无限个分支,所以深度优先搜索假设被误认为是无限个分支(即深度无限),无法找到策略节点。因此,深度优先搜索策略并不完整。此外,应用该策略获得的争议解决方案是最佳解决方案(最短路径)。【平凉SEO】

  广度优先搜索

  在深度优先搜索算法中,首先扩展具有较大深度的节点。假设在搜索中,将算法改为根据节点的级别进行搜索。当不搜索处理这一层的节点时,底层节点无法处理,即先展开深度较小的节点,也就是说先展开先出现的节点。这种搜索算法称为广度优先搜索。【平凉SEO】

  在深度优先搜索算法中,首先扩展具有较大深度的节点。假设在搜索中,将算法改为根据节点的级别进行搜索。当不搜索处理这一层的节点时,底层节点无法处理,即先展开深度较小的节点,也就是说先展开先出现的节点。这种搜索算法称为广度优先搜索。【平凉SEO】

  吸引蜘蛛

  哪些页面被认为更重要?有几个影响因素:

  ·网站 和页面权重。网站 素质高、资历老的被认为权重较高。这类网站上的页面会被爬得更深,所以会进入更多的内部页面。【平凉SEO】

  · 页面更新程度。每次蜘蛛爬行时,都会存储页面数据。假设第二次爬取发现页面与列表中第一次输入的页面完全相同,则说明该页面没有更新,不需要蜘蛛经常爬取。假设页面内容更新频繁,蜘蛛会越来越多地再次访问该页面,页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。【平凉SEO】

  · 导入链接。无论是外链还是同一个网站的内链,都需要导入链接进入页面才能被蜘蛛抓取,否则蜘蛛来不及知道存在这一页。高质量的导入链接往往会导致页面上的导出链接被爬行深度添加。一般来说,首页在网站上的权重最高。大多数外部链接指向主页,主页是蜘蛛最常访问的页面。点击间隔离首页越近,页面权重越高,被蜘蛛爬取的几率就越大。【平凉SEO】

  地址库

  为了避免重复抓取和抓取网址,搜索引擎会建立一个地址库来记录已经发现没有被抓取的页面,以及已经被抓取的页面。地址库中的uRL有几种来源:【平凉SEO】

  (1)手动输入*敏*感*词*网站。

  (2)蜘蛛抓取页面后,从HTML中解析出新的链接uRL,并与地址库中的数据进行比较,如果是地址库中没有的URL,则将其存储在要访问的地址库中。【平凉SEO】

  (3)站长通过搜索引擎网页提交表单提交的网址。

  爬虫根据重要性从待访问地址库中提取uRL,访问取页面,然后从待访问地址库中删除该uRL,放入访问地址库中。

  大多数主要搜索引擎都为网站管理员提供了一个表单来提交 URL。但是,这些提交的 URL 只是存储在地址库中,是否输入取决于页面的重要性。搜索引擎输入的大多数页面都是由蜘蛛自己通过链接获取的。可以说提交页面没用,搜索引擎更喜欢自己沿着链接发现新页面。文件存储搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。这段时间的页面数据与用户浏览器获取到的HTML完全一致。每个 uRI 都有一个共同的文件编号。【平凉SEO】

  爬行时复制内容检测

  检测和删除复制内容一般在下面介绍的预处理过程中进行,但是现在蜘蛛在爬取和抓取文件时也会进行一定程度的复制内容检测。当在网站上遇到大量转发或抄袭,权重极低的内容时,极有可能不再继续爬取。这就是为什么有些网站管理员在日志文件中发现了蜘蛛,但实际上从未进入过这些页面的原因。【平凉SEO】

  预处理

  在一些SEO材料中,“预处理”也被称为“索引”,因为索引是预处理最重要的过程。搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。搜索引擎数据库中的页面数在万亿以上。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算量太大,不可能在一两秒内恢复排名效果。因此,必须对抓取的页面进行预处理,为最终的查询排名做准备。和爬虫类似,预处理是在后台提前完成的,用户在搜索的时候不会感觉到这个过程。【平凉SEO】

  1.提取文本

  目前的搜索引擎还是以文字内容为主。蜘蛛爬取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本外,还收录了很多HTML格式的标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容,用于排名处理。【平凉SEO】

  2.中文分词

  分词是中文搜索引擎独有的过程。搜索引擎存储和处理页面,用户搜索基于单词。英语和其他口头单词和单词之间有一个空格,搜索引擎索引程序可以直接将句子分成单词集合。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。例如,“减肥方法”会被分割为“减肥”和“方法”两个词。【平凉SEO】

  基本上,中文分词方法有两种,一种是基于词典匹配,一种是基于会计。

  字典匹配的方法是指将一段待分析的汉字与预先建立的字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功,或者截断一个词。【平凉SEO】

  根据扫描方向,根据字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。扫描方向和长度优先混合,可以产生前向最大匹配和反向最大匹配等不同的方法。【平凉SEO】

  字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。

  会计分词法是指对大量文本样本进行分析,计算相邻单词出现的会计概率。相邻的单词越多,形成单词的可能性就越大。记账法的优点是对新出现的词反应更快,也有助于消除歧义。

  基于词典匹配和记账的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法,快速高效,可以识别新词和新词,消除歧义。【平凉SEO】

  中文分词的准确性往往会影响搜索引擎排名的相关性。例如,在百度上搜索“搜索引擎优化”。从快照中可以看出,百度将“搜索引擎优化”这六个词视为一个词。

  在谷歌上搜索同一个词时,一个快照闪现,谷歌将其分为两个词:“搜索引擎”和“优化”。显然,百度的细分更加合理,搜索引擎优化是必不可少的概念。在分词方面,谷歌往往更加分散。【平凉SEO】

  这种分词的差异,可能就是一些关键词在不同搜索引擎中排名不同的原因之一。例如,百度更喜欢在不遗漏任何匹配项的情况下查找出现在页面上的单词。也就是说,在搜索“Footplay Blog”时,连续出现这四个词,更容易在百度上获得好的排名。谷歌则不同,不需要完美匹配。在某些页面上,会出现“国鲜”和“博客”两个词,但不一定要完美匹配。“国贤”出现在最前面,“博客”出现在页面的其他地方。在谷歌搜索“国鲜博客”这样的页面,也可以获得不错的排名。【平凉SEO】

  搜索引擎对页面的分词取决于词库的规划和准确度以及分词算法的质量,而不是页面本身,所以SEO人员很少能做分词。唯一能做的就是在页面上以某种方式提示搜索引擎将某些词作为一个词处理,尤其是在可能存在歧义的情况下,例如页面标题中的关键词、h1标签和粗体。假设页面是关于“和服”的内容,“和服”这两个字可以专门用黑体标出。假设页面是关于“衣服和衣服”的,你可以用粗体标记“衣服”这个词。这样搜索引擎在分析页面的时候,就知道加粗的那个词应该是一个词。

  3.去断言

  无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,比如“的”、“地”、“得”等辅助词,“啊”、“哈” " "" 和 "ah" 等感叹词,"then"、"yi" 和 "que" 等副词或介词。这些词被称为中断词,因为它们对页面的主要含义几乎没有影响。英语中常见的不连续词有the、a、an、to、of等。 【平凉SEO】

  搜索引擎会在索引页面前去除这些不连续的词,使索引数据的主题更加突出,减少不必要的计算量。

  4. 消除噪音

  大多数页面上还有一部分内容与页面主题无关,例如版权声明文本、导航栏、广告等。以常见的博客导航为例。文章分类和历史存档等导航内容几乎出现在每个博客页面上,但这些页面本身与“分类”和“史前”等词无关。用户搜索“史前”和“范畴”等关键词并仅仅因为这些词出现在页面上而返回博客文章是毫无意义且完全无关的。因此,这些块归于噪音,只能对页面的主题起到分散注意力的作用。【平凉SEO】

  搜索引擎需要识别和消除这些噪音,在排名时不要使用噪音内容。消除噪声的基本方法是根据HTML标签将页面分成块,区分页眉、导航、正文、页脚、广告等区域。网站 上的许多重复块通常归因于噪声。页面去噪后,剩下的就是页面的主要内容了。

  5.卸重

  搜索引擎还需要对页面进行重复数据删除。

  相同的文章经常重复出现在不同的网站上,相同的网站出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时,假设前两页看到来自不同网站的同一篇文章文章,用户体验太差了,虽然都和内容有关。搜索引擎希望在同一个文章中只返回一篇文章,因此在索引之前需要识别并删除重复的内容。此过程称为“重复数据删除”。【平凉SEO】

  去重的基本方法是计算页面特征的关键词的指纹,即从页面的主要内容中选出最具代表性的部分关键词(往往是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词是经过分词、分词、降噪后选择出来的。实验表明,一般选择10个关键词可以达到较高的记账准确率,选择更多的关键词对去重准确率的提升贡献不大。

  典型的指纹计算方法是MD5算法(信息摘要算法第五版)。这种指纹算法的特点是输入(特征的关键字)的任何微小变化都会导致计算出的指纹出现很大的差距。

  了解了搜索引擎的去重算法,SEO人员应该知道,简单的加上“的”、“地”、“得”,以及交换阶段的所谓“伪原创”,都逃不过搜索引擎。重算法,因为这样的操作不能改变文章的关键词。而且,搜索引擎的去重算法很可能不仅仅在页面层面,而是在阶段层面,混合不同的文章和交叉交换阶段不能使转载和抄袭成为原创。【平凉SEO】

  6.远期指数

  前向索引也可以简称为索引。

  经过文本提取、分词、去噪、去重后,搜索引擎可以得到反映页面主要内容的、以词为基础的通用内容。接下来,搜索引擎索引程序可以提取关键词,根据分词程序将页面转换为关键词集合,记录页面上每个关键词的出现频率、出现次数、模式(如出现在标题标签、粗体、H 标签、锚文本等)、位置(如页面列表文本的第一段等)。这样就可以将每一页记录为一个关键词集合,其中还记录了每个关键词的词频、模式、位置等权重信息。【平凉SEO】

  搜索引擎索引程序将页面的词汇结构和关键词存储到索引数据库中。简化索引词汇如表2-1所示。

  每个文件对应一个文件ID,文件的内容以关键字的集合表示。事实上,在搜索引擎索引库中,关键词也被转化为关键词ID。这种数据结构称为前向索引。【平凉SEO】

  7.倒排索引

  前向索引不能直接用于排名。假设用户搜索关键字 2 并假设只有一个前向索引。排序程序需要扫描索引库中的所有文件,找到收录关键字2的文件,然后进行相关性计算。这样的计算量无法满足实时回报排名效果的要求。

  因此,搜索引擎会将正向索引数据库重构为倒排索引,将文件到关键字的映射转换为关键字到文件的映射,如表2-2所示。【平凉SEO】

  在倒排索引中,关键字为主键,每个关键字对应一系列文件,关键字出现在这些文件中。这样,当用户搜索某个关键字时,排序程序在倒排索引中定位该关键字,并能立即找出所有收录该关键字的文件。

  8.会计联系链接

  链接联系记帐也是预处理的一个非常重要的部分。现在所有主流的搜索引擎排名元素都收录网页之间的链接活动信息。搜索引擎抓取页面内容后,需要提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接使用的是什么锚文本。这些杂乱的链接指向链接,形成一个网站和页面的链接权重。【平凉SEO】

  谷歌公关值是这种链接连接最重要的体现之一。其他搜索引擎也执行类似的计算,尽管它们不称为 PR。

  由于页面和链接数量庞大,互联网上的链接不断更新,因此链接链接和PR的计算需要很长时间。PR和链接分析有专门的章节。

  9.特殊文件处理

  除了 HTML 文件,搜索引擎一般可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等,我们经常在搜索结果中看到这些文件类型。但是,当前的搜索引擎无法处理图像、视频和 Flash 等非文本内容,也无法执行脚本和程序。【平凉SEO】

  尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但直接依靠读取图片、视频和Flash内容来返回效果的策略还很遥远。图片和视频内容的排名往往是基于与其相关的文字内容。有关详细信息,请参阅下面的集成搜索部分。

  秩

  搜索引擎程序通过搜索引擎蜘蛛抓取的界面计算出倒排索引后,搜索引擎就可以随时处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引库数据,会计排名闪现给客户。排名过程直接与客户互动。【平凉SEO】

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线