百度搜索引擎优化原理(SEO优化基础知识:人工录入的*敏*感*词*网站(一))

优采云 发布时间: 2021-10-30 13:12

  百度搜索引擎优化原理(SEO优化基础知识:人工录入的*敏*感*词*网站(一))

  (1)手动输入*敏*感*词*网站。

  (2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较,如果是地址库中没有的URL,则将其存储在要访问的地址库中。

  (3) 站长通过搜索引擎网页提交表单提交的网址。

  蜘蛛根据重要性从要访问的地址库中提取URL,访问并抓取页面,然后从要访问的地址库中删除该URL。

  从访问地址库中删除,放入访问地址库。大多数主要搜索引擎都为网站管理员提供了一个表单来提交 URL。但是,这些提交的 URL 仅存储在地址数据库中。是否收录取决于页面的重要性。搜索引擎收录的大部分页面都是蜘蛛自己通过链接获取的。可以说提交页面基本没用,搜索引擎更喜欢自己沿着链接发现新页面。

  5. 文件存储

  搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。页面数据和用户的浏览器

  HTML 完全相同。每个 URL 都有一个唯一的文件编号。

  6.爬取时复制内容检测

  复制内容的检测和删除通常在下面描述的预处理过程中进行,但现在蜘蛛在抓取和抓取文件时也会进行一定程度的复制内容检测。当在网站上遇到大量转发或抄袭,权重极低的内容时,很可能无法继续爬取。这就是为什么有些站长在日志文件中发现蜘蛛,但页面从来没有真正收录的原因。

  

  预处理

  在一些SEO资料中,“预处理”也称为“索引”,因为索引是最重要的预处理

  步。

  搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。搜索引擎数据库

  页数超过万亿。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算量太大,不可能在一两秒内返回排名结果。因此,必须对抓取的页面进行预处理,为最终的查询排名做准备。和爬虫一样,预处理是在后台提前完成的,用户在搜索的时候不会感觉到这个过程。

  1.提取文本

  当前的搜索引擎仍然基于文本内容。蜘蛛抓取的页面中的 HTML 代码,除了

  除了用户在浏览器上可以看到的可见文本外,还收录了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容,用于排名处理。

  除了可见的文本,搜索引擎还会提取一些收录文本信息的特殊代码,比如Meta标签

  在文本中,图片替代文本、Flash文件替代文本、链接锚文本等。

  2.中文分词

  分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面,用户搜索基于单词

  基本的。英语等语言中词与词之间存在空格,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词,哪些词本身就是一个词。例如,“减肥方法”会被分割为“减肥”和“方法”两个词。中文分词方法基本上有两种,一种是基于词典匹配,一种是基于统计。

  基于词典匹配的方法是指将待分析的汉字与预先构建的词典中的词条进行比较的过程。

  匹配,在待分析的汉字字符串中扫描字典中已有的词条会匹配成功,或者切掉一个词。

  根据扫描方向,基于字典的匹配方法可分为正向匹配和反向匹配。先按匹配长度

  不同的级别又可以分为最大匹配和最小匹配。首先混合扫描方向和长度,可以生成前向最大匹配和反向最大匹配等不同的方法。

  字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。

  基于统计的分词方法是指对大量文本样本进行分析,计算字符相邻出现的统计概率。

  相邻的几个词越多,形成一个词的可能性就越大。基于统计的方法的优点是对新词反应更快,也有助于消除歧义。

  基于词典匹配和统计的分词方法各有优缺点,实际使用中的分词系统褒贬不一。

  这两种方法快速高效,可以识别新词和新词,消除歧义。

  中文分词的准确性往往会影响搜索引擎排名的相关性。例如,在百度搜索“搜索引擎优秀

  从快照中可以看出,百度将“搜索引擎优化”这六个词视为一个词。

  

  搜索引擎对页面的分词取决于分词算法的规模、准确度和质量,而不是页面本身,所以SEO人员很少能做分词。唯一能做的就是使用某种形式在页面上提示搜索引擎。某些词应视为一个词,尤其是在可能存在歧义的情况下,例如页面标题、h1 标签和粗体关键词。如果页面是关于“和服”的内容,那么“和服”两个字可以专门用粗体标出。如果页面是关于“化妆和服装”的,你可以用粗体标记“服装”这个词。这样搜索引擎在分析页面的时候,就知道加粗的那个词应该是一个词。

  3.去停止词

  无论是英文还是中文,部分页面内容都会频繁出现,但对内容没有影响。

  诸如“的”、“地”、“得”等助词、“啊”、“哈”、“啊”等感叹词、“从而”、“以”、“可”等副词或介词。这些词被称为停用词,因为它们对页面的主要含义没有影响。英语中常见的停用词包括 the、a、an、to、of 等。

  搜索引擎会在索引页面之前去除这些停用词,使索引数据的主题更加突出,减少不必要的

  计算量。

  4. 消除噪音

  大多数页面上还有一部分内容与页面主题无关,例如版权声明文本、指南

  导航笔记、广告等。以常见的博客导航为例,文章分类、历史存档等导航内容几乎出现在每个博客页面上,但这些页面本身与“分类”和“分类”等词无关。 “历史”。当用户搜索“历史”和“类别”关键词时,仅仅因为这些词出现在页面上而返回博客帖子是毫无意义和完全无关的。所以这些块都是噪音,只能起到分散页面话题的作用。

  搜索引擎需要识别并消除这些噪音,排名时不使用噪音内容。降噪的基本方法是基于

  HTML 标签将页面划分为块,区分页面标题、导航、正文、页脚和广告等区域。网站 上重复出现的块通常是噪音。页面去噪后,剩下的就是页面的主要内容了。

  5. 重复数据删除

  搜索引擎还需要对页面进行去重。

  同一个文章经常重复出现在不同的网站上,同一个网站出现在不同的网址上,搜索引擎不高兴

  快乐这种重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验太差了,虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章,因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。

  去重的基本方法是计算页面特征的指纹关键词,即从页面的主要内容中选出最重要的

  关键词的代表部分(往往是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里关键词的选择是经过分词、去停用词、去噪后的。实验表明,通常选择10个特征关键词可以达到较高的计算精度,选择更多的词对去重精度的提升贡献不大。

  典型的指纹计算方法是MD5算法(信息摘要算法第五版)。这类指纹算法的特点是输入(特征关键词)的任何微小变化都会导致计算指纹出现很大的差距。

  了解搜索引擎的去重算法,SEO人员应该知道,简单的加“的”、“地”、“得”,改变段落的顺序,也就是所谓的伪原创,逃不过搜索的去重引擎。算法,因为这样的操作无法改变文章关键词的特性。而且,搜索引擎的去重算法很可能不仅在页面级别,而且在段落级别。混用不同的文章,交叉切换段落顺序,不会使转载抄袭成为原创。

  6. 远期指数

  前向索引也可以简称为索引。

  经过文本提取、分词、去噪、去重后,搜索引擎获得唯一性,反映页面主体

  文字方面的内容。接下来,搜索引擎索引程序可以提取关键词,根据分词程序,将页面转换成关键词的集合,并记录页面上每个关键词的频率、数量出现次数、格式(如标题标签、粗体、H 标签、锚文本等)、位置(如页面的第一段等)。这样就可以将每一页记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。

  搜索引擎索引程序将词汇结构中的页面和关键词存储到索引数据库中。简化索引词汇表

  

  每个文件对应一个文件ID,文件的内容表示为一组关键词。事实上,在搜索引擎索引库中,关键词也被转换为关键词 ID。这种数据结构称为前向索引。

  7.倒排索引

  前向索引不能直接用于排名。假设用户搜索关键词 2.如果只有前向索引,则排名

  程序需要扫描索引库中的所有文件,找到收录关键词 2的文件,然后计算相关性。这个计算量不能满足实时返回排名结果的要求。因此,搜索引擎会将正向索引数据库重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射。在倒排索引中,关键词是主键,每个关键词对应一系列文件,而这个关键词出现在这些文件中。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位这个关键词,

  您可以立即找到收录此 关键词 的所有文件。

  

  8. 链接关系计算

  链接关系计算也是预处理中非常重要的部分。现在所有主要的搜索引擎排名因素都是

  收录有关网页之间链接流的信息。搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

  谷歌PR值是这种链接关系最重要的体现之一。其他搜索引擎也执行类似的计算,尽管它们不称为 PR。

  由于页面和链接数量庞大,互联网上的链接关系不断更新,因此链接关系和PR

  计算需要很长时间。

  9. 特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如

  PDF、Word、WPS、XLS、PPT、TXT 文件等,我们也经常在搜索结果中看到这些文件类型。但是,当前的搜索引擎无法处理图像、视频和 Flash 等非文本内容,也无法执行脚本和程序。

  尽管搜索引擎在识别图像和从 Flash 中提取文本内容方面取得了一些进展,但距离直接取决于

  读取图片、视频、Flash 内容返回结果的目标还很遥远。图片和视频内容的排名往往以与其相关的文字内容为依据。

  

  秩

  搜索引擎蜘蛛抓取页面,索引程序计算出倒排索引后,搜索引擎准备

  随时处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引库数据,计算排名并显示给用户。排名过程与用户直接交互。

  1.搜索词处理

  搜索引擎收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括以下几个方面。

  (1)中文分词。同页面索引,搜索词也必须是中文分词,转换查询字符串

  它是 关键词 的基于单词的组合。分词原理与页面分词原理相同。

  (2)去停用词。和索引一样,搜索引擎也需要去除搜索词中的停用词,以最大化

  提高排名相关性和效率。

  (3)指令处理。查询词切分后,搜索引擎默认的处理方式是在关键词之间使用

  “和”逻辑。也就是说,当用户搜索“减肥方法”时,程序分词是“减肥”和“方法”。按搜索引擎排序时,默认是用户查找同时收录“减肥”和“方法”的页面。仅收录“减肥”但不收录“方法”的页面,或仅收录“方法”但不收录“减肥”页面的页面,将被视为不符合搜索条件。当然,这只是为了说明原理而非常简化的说法。事实上,我们仍然会看到只收录关键词的一部分的搜索结果。

  此外,用户输入的查询词还可能收录一些高级搜索指令,如加号、减号等,搜索引擎

  需要进行相应的识别和处理。

  (4)拼写错误更正。如果用户输入明显错误的单词或拼错英文单词,搜索引擎会提示

  用户使用正确的单词或拼写。

  

  (5)集成搜索触发。某些搜索词会触发集成搜索。例如名人的名字经常触发图片和视频。

  频次内容,时下热门话题,很容易触发信息内容。在搜索词处理阶段还需要计算哪些词触发哪些集成搜索。

  2.文件匹配

  搜索词处理后,搜索引擎得到一个基于词的关键词集合。文件匹配阶段是

  查找收录所有 关键词 的文件。索引部分提到的倒排索引可以快速完成文件匹配

  

  假设用户搜索“关键词 2 关键词7”,排名程序只需要在倒排索引中找到“关键词2”和“关键词7”这两个词,然后可以找到收录这两个词的所有页面。经过简单的计算,我们可以找到同时收录“关键词 2”和“关键词 7”的所有页面:文件1和文件6。

  3. 初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关计算,因为找到的文件经常

  有几十万,甚至上千万。实时对这么多文件进行相关计算需要很长时间。

  事实上,用户不需要知道所有几十万或几百万匹配的页面,大多数用户只查看

  前两页是前 20 个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面最重要的部分。使用搜索引擎的人会注意到,搜索结果页通常最多显示100页。当用户点击搜索结果页底部的“下一页”链接时,最多只能看到第100页,也就是1000条搜索结果。百度通常会返回 76 页的结果。

  

  因此,搜索引擎只需要计算前1000条结果的相关度即可满足要求。

  但问题是,在计算相关性之前,搜索引擎如何知道哪一千个文件最相关?

  因此,用于最终相关性计算的初始页面子集的选择必须依赖于其他特征而不是相关性,其中最重要的是页面权重。由于所有匹配的文件已经具有最基本的相关性(这些文件收录所有查询关键词),搜索引擎通常使用不相关的页面特征来选择初始子集。初始子集的数量是多少?成千上万?也许更多,外人不知道。但可以肯定的是,当匹配页面数量巨大时,搜索引擎不会计算这么多页面,而是必须选择一个页面权重较高的子集,然后计算该子集中页面的相关性。

  4. 相关计算

  选择初始子集后,计算子集中页面的关键词相关度。计算相关性是排名过程中最重要的

  最重要的一步。相关性计算是SEO搜索引擎算法中最有趣的部分。

  影响相关性的主要因素包括以下几个方面。

  (1)关键词 常用度。分词后,多个关键词对整个搜索字符串的意义没有贡献

  相同的。使用频率越高的词对搜索词的含义的贡献越小,而使用频率越低的词对搜索词的含义的贡献越大。例如,假设用户输入的搜索词是“we Pluto”。“我们”这个词使用频率很高,出现在很多页面上。它对搜索词“us Pluto”的识别和意义贡献不大。找出那些收录“我们”一词的页面对搜索排名相关性几乎没有影响。收录“我们”一词的页面太多了。

  术语“冥王星”不太常用,它有助于搜索术语“我们的冥王星”的含义。

  更大。收录“冥王星”一词的页面将与搜索词“我们的冥王星”更相关。

  常用词的极端是停用词,它对页面的含义没有影响。

  因此,搜索引擎不会对搜索字符串中的关键词一视同仁,而是根据常用程度来对待。

  加权。生僻词权重系数高,常用词权重系数低。排序算法更关注生僻词。

  我们假设“我们”和“冥王星”这两个词出现在 A 和 B 页上。但是“我们”这

  该词出现在A页的普通文本中,“Pluto”一词出现在A页的标题标签中。在B页,相反,“我们”出现在标题标签中,“Pluto”出现在普通文本中. 然后对于搜索词“我们冥王星”,页面 A 将更相关。

  (2)词频和密度。一般认为,当没有关键词的积累时,搜索词出现在页面上的次数

  数字越高,密度越高,页面与搜索词的相关性就越高。当然,这只是一般规律,实际情况可能并非如此,因此相关性计算中还有其他因素。频率和密度只是部分因素,其重要性越来越低。

  (3)关键词位置和格式。如索引部分所述,页面关键词的格式和位置出现

  它记录在索引库中。关键词出现在更重要的位置,如标题标签、粗体、H1等,说明该页面与关键词的相关度更高。这部分是页面 SEO 即将解决的问题。

  (4)关键词 距离。分割关键词出现在完全匹配中,表明它与搜索词最相关。例如,搜索

  以“减肥法”为例,页面上连续完整出现的“减肥法”四个字最为相关。如果“减肥”和“方法”这两个词不连续匹配,它们看起来更接近,也被搜索引擎认为稍微更相关。

  (5) 链接分析和页面权重。除了页面本身,页面之间的链接和权重关系也会影响

  关键词 最重要的相关性是锚文本。在页面上将搜索词作为锚文本的导入链接越多,页面的相关性就越高。

  链接分析还包括链接源页面本身的主题、锚文本周围的文本等。

  5.排名过滤和调整

  选择匹配文件的子集并计算相关性后,就确定了总体排名。搜索引擎可能有后

  一些过滤算法对排名进行了细微的调整,其中最重要的是施加惩罚。一些疑似作弊页面根据正常权重和相关性计算排在第一位,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位算法、谷歌的负6、负30、负950等算法。

  6.排名显示

  所有排名确定后,排名程序调用原页面标题标签、描述标签、快照日期等数据进行展示

  显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。

  7. 搜索缓存

  用户搜索的关键词很大一部分是重复的。根据 2/8 定律,20% 的搜索词占总搜索量

  请求数的 80%。根据长尾理论,最常见的搜索词占不到80%,但它们通常头部比较大,少数搜索词占所有搜索的很大一部分。特别是当热点新闻发生时,每天可能有数百万人搜索完全相同的关键词。

  可以说每次搜索都重新处理排名是一种极大的浪费。搜索引擎将存储最常见的搜索词

  进入缓存,用户搜索时直接从缓存中调用,无需经过文件匹配和关联计算,大大提高了排名效率,缩短了搜索响应时间。

  8.查询和点击日志

  搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。

  引擎被记录并形成日志。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。

  上面我们简单介绍了搜索引擎的工作过程。当然,实际搜索引擎的工作步骤和算法是对是错

  非常复杂。上面的描述很简单,但是有很多技术难点。

  搜索引擎仍在优化算法和优化数据库格式。不同的搜索引擎的工作步骤也会有所不同。但基本上所有主流搜索引擎的基本工作原理都是一样的,在过去几年和未来几年都不会出现可以预期的实质性变化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线