博客搜索引擎优化( 搜索引擎的工作的过程非常复杂，而简单的讲的工过程)

优采云发布时间: 2021-09-25 14:06

　　博客搜索引擎优化(

搜索引擎的工作的过程非常复杂，而简单的讲的工过程)

　　搜索引擎的工作过程非常复杂，简单来说，搜索引擎的工作过程大致可以分为三个阶段。爬行和爬行：搜索引擎蜘蛛通过链接访问页面，获取页面的HTML代码并存入数据库。预处理：Search Winball 对抓取的页面数据文本进行文本提取、中文分词、索引等处理，以准备调用排名程序。排名：用户输入关键词后，排名调用索引库数据，计算相关性，然后生成一定格式的搜索结果页面。

　　爬行和爬行

　　爬取和爬取是搜索引擎工作完成数据采集任务的第一步。

　　蜘蛛

　　搜索引擎用来抓取和访问页面的程序称为蜘蛛程序或机器人程序。

　　蜘蛛代理名称：

　　百度蜘蛛：百度蜘蛛+(+)·

　　雅虎中国蜘蛛：Mozilla/5.0（兼容；Yahoo! Slurp 中国；）·

　　英文雅虎蜘蛛：Mozilla/5.0（兼容；Yahoo! Slurp/3.0;）

　　谷歌蜘蛛：Mozilla/5.0（兼容；Googlebot/2.1；+）·

　　微软必应蜘蛛：msnbot/1.1 (+)·

　　搜狗蜘蛛：搜狗+网络+机器人+(+#07) ·

　　搜索蜘蛛：Sosospider+(+) ·

　　有道蜘蛛：Mozilla/5.0（兼容；YodaoBot/1.0;;）

　　追踪链接

　　为了在网络上抓取尽可能多的页面，搜索引擎蜘蛛会跟随页面上的链接从一个页面爬到下一个页面，就像蜘蛛在蜘蛛网上爬行一样。这就是名称搜索引擎蜘蛛的由来。最简单的爬行遍历策略分为两种，一种是深度优先，一种是广度优先。

　　深度优先搜索

　　深度优先搜索是在搜索树的每一层总是只扩展一个子节点，并继续深度推进，直到不能再推进（到达叶节点或受深度限制）才从当前节点返回到上一个节点。继续向另一个方向前进。这种方法的搜索树是从树的根部逐个分支逐渐形成的。

　　深度优先搜索也称为垂直搜索。由于一棵可解的问题树可能收录无限分支，如果深度优先搜索误入无限分支（即深度无限），则无法找到目标节点。因此，深度优先搜索策略是不完整的。另外，应用该策略得到的解不一定是最佳解（最短路径）。

　　广度优先搜索

　　在深度优先搜索算法中，首先扩展具有较大深度的节点。如果将算法改为根据搜索中节点的级别进行搜索，当该层的节点没有被搜索和处理时，不能处理下层节点，即先展开深度较小的节点，也就是说可以先扩展第一个节点，这种搜索算法称为广度优先搜索法。

　　吸引蜘蛛

　　哪些页面被认为更重要？有几个影响因素：

　　· 网站和页面权重。高质量和高级资格的网站被认为具有更高的权重。这类网站上的页面会被爬得更深，所以更多的内部页面会是收录。

　　· 页面更新率。每次蜘蛛爬行时，都会存储页面数据。如果第二次爬取发现页面和第一次收录完全一样，说明页面没有更新，蜘蛛不需要频繁爬取。如果页面内容更新频繁，蜘蛛会更频繁地访问该页面，页面上出现的新链接自然会被蜘蛛更快地跟踪并抓取新页面。

　　· 导入链接。无论是外链还是同一个网站的内链，要想被蜘蛛爬取，必须有导入链接才能进入页面，否则蜘蛛没有机会知道存在这一页。高质量的导入链接也往往会增加页面导出链接的深度。一般来说，首页在网站上的权重最高，大部分外链都指向首页，首页是蜘蛛最常访问的。点击离首页越近，页面权重越高，被蜘蛛抓取的机会就越大。

　　地址库

　　为了避免重复抓取和抓取网址，搜索引擎会建立一个地址库来记录已经发现没有被抓取的页面，以及已经被抓取的页面。地址库中有几个 uRL 来源：

　　（1)手动输入*敏*感*词*网站。

　　（2)蜘蛛抓取页面后，从HTML中解析出新的链接uRL，并与地址库中的数据进行比较。如果是地址库中没有的URL，则将其存储在要访问的地址数据库中。

　　（3)站长通过搜索引擎网页提交表单提交的网址。

　　蜘蛛根据重要性从待访问地址库中提取uRL，访问取页面，然后从待访问地址库中删除该uRL，放入访问地址库中。

　　大多数主要搜索引擎都为网站管理员提供了一个表单来提交 URL。但是，这些提交的 URL 仅存储在地址数据库中。是否收录取决于页面的重要性。搜索引擎收录的大部分页面都是蜘蛛自己通过链接获取的。可以说提交页面基本没用，搜索引擎更喜欢自己沿着链接发现新页面。

　　文件存储搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。每个 uRI 都有一个唯一的文件编号。

　　爬行时复制内容检测

　　检测和删除复制内容通常在下面描述的预处理过程中进行，但现在蜘蛛在爬取和抓取文件时也会进行一定程度的复制内容检测。当在网站上遇到大量转发或抄袭，权重极低的内容时，很可能无法继续爬取。这就是为什么有些站长在日志文件中发现蜘蛛，但页面从来没有真正收录的原因。

　　预处理

　　在一些SEO材料中，“预处理”也被称为“索引”，因为索引是预处理中最重要的一步。

　　搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。搜索引擎数据库中的页面数在万亿以上。用户输入搜索词后，排名程序会实时分析这么多页面的相关性，计算量太大，一两秒内返回排名结果。因此，必须对抓取的页面进行预处理，为最终的查询排名做准备。

　　和爬虫一样，预处理是在后台提前完成的，用户在搜索的时候不会感觉到这个过程。

　　1.提取文本

　　当前的搜索引擎仍然基于文本内容。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本外，还收录了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的是去除HTML文件中的标签和程序，提取网页的文本内容，用于排名处理。

　　今天愚人节

　　去掉HTML代码后，剩下的用于排名的文字就只有这一行：

　　今天愚人节

　　除了可见文本，搜索引擎还会提取一些收录文本信息的特殊代码，例如Meta标签中的文本、图片的替代文本、Flash文件的替代文本、链接锚文本等。

　　2.中文分词

　　分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面，用户搜索基于单词。英语等语言中词与词之间存在空格，搜索引擎索引程序可以直接将句子分成词组。但是，中文单词之间没有分隔符，句子中的所有字符和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词，哪些词本身就是一个词。例如，“减肥方法”会被分割为“减肥”和“方法”两个词。

　　中文分词方法基本上有两种，一种是基于词典匹配，一种是基于统计。

　　基于字典匹配的方法是指将一段待分析的汉字与预先建立的字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功，或者截断一个词。

　　根据扫描方向，基于字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级，可分为最大匹配和最小匹配。首先混合扫描方向和长度，可以生成前向最大匹配和反向最大匹配等不同的方法。

　　字典匹配法计算简单，其准确性在很大程度上取决于字典的完整性和更新性。

　　基于统计的分词方法是指对大量文本样本进行分析，计算相邻单词出现的统计概率。相邻的几个词越多，形成一个词的可能性就越大。基于统计的方法的优点是对新词反应更快，也有助于消除歧义。

　　基于词典匹配和统计的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法，快速高效，可以识别新词和新词，消除歧义。

　　中文分词的准确性往往会影响搜索引擎排名的相关性。比如在百度上搜索“搜索引擎优化”，从快照中可以看出，百度将“搜索引擎优化”这六个词视为一个词。

　　在谷歌上搜索同一个词时，快照显示谷歌将其分为两个词：“搜索引擎”和“优化”。显然，百度的细分更合理，搜索引擎优化是一个完整的概念。在分词方面，谷歌往往更加分散。

　　这种分词的差异，可能也是一些关键词排名在不同搜索引擎中表现不同的原因之一。例如，百度更喜欢完全匹配页面上的搜索词。也就是说，在搜索“Footplay Blog”时，这四个词连续、完整地出现，更容易在百度上获得好的排名。谷歌与此不同，不需要完全匹配。在某些页面上，会出现“国鲜”和“博客”两个词，但它们不一定完全匹配。“国贤”出现在最前面，“博客”出现在页面的其他地方。在谷歌中搜索“国贤博客”这样的页面。”，也可以获得不错的排名。

　　搜索引擎对页面的分词取决于词库的分词算法的规模、准确度和质量，而不是页面本身，所以SEO人员可以做的分词很少。唯一能做的就是使用某种形式在页面上提示搜索引擎。某些词应视为一个词，尤其是在可能存在歧义的情况下，例如页面标题、h1 标签和粗体关键词。如果页面是关于“和服”的内容，那么“和服”两个字可以专门用粗体标出。如果页面是关于“化妆和服装”的，你可以用粗体标记“服装”这个词。这样搜索引擎在分析页面的时候，就知道加粗的那个词应该是一个词。

　　3.去停词

　　无论是英文还是中文，页面内容中都会出现一些频繁出现但对内容没有影响的词，比如“的”、“地”、“得”等辅助词，“啊”、“哈” " 感叹词如“Ya”，副词或介词如“Thus”、“Yi”和“Que”。这些词被称为停用词，因为它们对页面的主要含义没有影响。英语中常见的停用词包括 the、a、an、to、of 等。

　　搜索引擎会在索引页面前去除这些停用词，使索引数据的主题更加突出，减少不必要的计算。

　　4. 消除噪音

　　搜索引擎需要识别并消除这些噪音，排名时不使用噪音内容。消除噪声的基本方法是根据HTML标签将页面划分为块，区分页眉、导航、正文、页脚和广告等区域。网站上重复出现的块通常是噪音。页面去噪后，剩下的就是页面的主要内容了。

　　5.卸重

　　搜索引擎还需要对页面进行去重。

　　相同的文章经常重复出现在不同的网站上，相同的网站出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时，如果在前两页看到来自不同网站的同一篇文章文章，用户体验太差了，虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章，因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。

　　去重的基本方法是计算页面特征的指纹关键词，即选择页面主要内容中最具代表性的部分关键词（往往是出现频率最高的关键词），然后计算这些关键词数字指纹。这里关键词的选择是经过分词、去停用词、去噪后的。实验表明，通常选择10个特征关键词可以达到较高的计算精度，选择更多的词对去重精度的提升贡献不大。

　　典型的指纹计算方法是MD5算法（信息摘要算法第五版）。这类指纹算法的特点是输入（特征关键词）的任何微小变化都会导致计算指纹出现很大的差距。

　　了解搜索引擎的去重算法，SEO人员应该知道，简单的加“的”、“地”、“得”，改变段落的顺序，也就是所谓的伪原创，逃不过搜索的去重引擎。算法，因为这样的操作无法改变文章关键词的特性。而且，搜索引擎的去重算法很可能不仅在页面级别，而且在段落级别。混用不同的文章，交叉切换段落顺序，不会使转载抄袭成为原创。

　　6.远期指数

　　前向索引也可以简称为索引。

　　经过文本提取、分词、去噪和去重后，搜索引擎获得了反映页面主要内容的独特的、基于词的内容。接下来，搜索引擎索引程序可以提取关键词，根据分词程序，将页面转换成一组关键词，并记录每个关键词在页面上的频率、数量出现次数、格式（如标题标签、粗体、H 标签、锚文本等）、位置（如页面的第一段等）。这样就可以将每一页记录为一串关键词集合，其中还记录了每个关键词的词频、格式、位置等权重信息。

　　搜索引擎索引程序将词汇结构中的页面和关键词存储到索引数据库中。索引词汇的简化形式如表2-1所示。

　　每个文件对应一个文件ID，文件的内容表示为一组关键词。事实上，在搜索引擎索引库中，关键词也被转换成了关键词ID。这种数据结构称为前向索引。

　　7.倒排索引

　　前向索引不能直接用于排名。假设用户搜索关键词2。如果只有前向索引，排序程序需要扫描索引库中的所有文件，找到收录关键词2的文件，然后进行相关计算。这个计算量不能满足实时返回排名结果的要求。

　　因此，搜索引擎会将正向索引数据库重构为倒排索引，将文件到关键词的映射转换为关键词到文件的映射，如表2-2所示。

　　在倒排索引中，关键词为主键，每个关键词对应一系列文件，而这个关键词出现在这些文件中。这样，当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，可以立即找到收录这个关键词的所有文件。

　　8. 链接关系计算

　　链接关系计算也是预处理的重要部分。所有主流搜索引擎排名因素现在都包括网页之间的链接流信息。搜索引擎抓取页面内容后，必须提前计算：页面上的哪些链接指向其他页面，每个页面上有哪些导入链接，链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

　　谷歌PR值是这种链接关系最重要的体现之一。其他搜索引擎也执行类似的计算，尽管它们不称为 PR。

　　由于页面和链接数量庞大，在线链接关系不断更新，因此链接关系和PR的计算需要很长时间。PR和链接分析有专门的章节。

　　9.特殊文件处理

　　除了 HTML 文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，例如 PDF、Word、WPS、XLS、PPT、TXT 文件等，我们在搜索结果中也经常看到这些文件类型。但是，当前的搜索引擎无法处理图像、视频和 Flash 等非文本内容，也无法执行脚本和程序。

　　尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展，但离通过读取图片、视频和Flash内容直接返回结果的目标还差得很远。图片和视频内容的排名往往以与其相关的文字内容为依据。有关详细信息，请参阅下面的集成搜索部分。

　　秩

　　搜索引擎蜘蛛爬过界面后，搜索引擎程序计算倒排索引，搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后，排名程序调用索引库数据，计算排名并展示给客户。排名过程直接与客户互动。

0

2021-09-25

博客搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

博客搜索引擎优化( 搜索引擎的工作的过程非常复杂，而简单的讲的工过程)

0 个评论

发起人