百度搜索引擎优化原理(SEO经验分享：HTML中预处理的复制内容检测方法详解)

优采云发布时间: 2021-11-11 05:15

　　① 手动输入*敏*感*词*网站；

　　②蜘蛛抓取页面后，从HTML中解析出新的链接URL，并与地址库中的数据进行比较。如果地址库中没有URL，则存储在地址库中待访问；

　　③ 站长通过界面提交的网址；

　　④ 站长通过XML网站地图和站长平台提交的网站；

　　5) 文件存储。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。

　　6) 爬取时复制内容检测。

　　二、预处理

　　在一些SEO经验分享中，“预处理”也被称为“索引”，因为索引是预处理最重要的内容：

　　1、提取文本

　　我们在原创页面数据库中存储的是HTML代码，HTML代码中不仅收录用户在页面上可以直接看到的文本内容，还收录其他JS、AJAX等搜索引擎无法进行排名的内容。首先要做的是从 HTML 文件中删除这些无法解析的内容，并提取可用于排名处理步骤的文本内容。

　　2、中文分词

　　分词是中文搜索引擎独有的一步。搜索引擎根据单词存储/处理页面/用户搜索。基本上有两种方法：一种是基于字典匹配，一种是基于统计。

　　3、去阻止这个词

　　无论是英文还是中文，都会有一些词出现在页面上频繁出现，对内容没有影响，如：、啊、哈等，这些词被称为停用词。搜索引擎会去掉这些停用词，使数据主题更加突出，减少不必要的计算。

　　4、去除干扰词

　　大多数页面都有这样一部分对页面主题贡献不大的内容。比如页面A的内容是一篇关于百度的文章网站收录文章，关键词就是百度网站收录，但是另外为了说明网站收录内容的主要内容，还有页眉、页脚、广告等区域构成了这个页面。

　　这些部分出现的文字可能与页面内容本身的关键词无关。搜索引擎的排名程序在对数据进行排名时不能参考这些噪音内容。在预处理阶段，需要对这些噪声进行区分和组合。消灭它们。消除噪音的方法是将页面按照HTML标签划分成块，比如header标签、footer标签等，去掉这些区域后，剩下的就是页面的主要内容了。

　　5、删除内容

　　那就是删除重复的网页。同一篇文章文章经常在不同的网站/same 网站不同的网址上重复出现。为了用户体验，重复数据删除步骤是必要的。搜索引擎将识别并删除页面上的重复内容。这个过程叫做内容去重，也是影响百度的要点之一网站收录。

　　6、远期指数

　　它可以简称为索引。经过上述步骤（提取、分词、去噪、去重），搜索引擎最终得到唯一的、能够反映页面主要内容的基于词的内容。

　　接下来搜索引擎的索引程序提取关键词，根据分词程序将页面转换成关键词的集合，还需要记录每一个关键词在页面上的频率、出现次数、格式（如标题标签、粗体、h 标签、锚文本等）和位置（如页面的第一段等）。搜索引擎的索引程序会将页面和关键词形成的词汇结构存储到索引数据库中。

　　7、倒排索引

　　前向索引不能直接用于排名。假设用户搜索关键词[2]，如果只有前向索引，排序程序需要扫描索引库中的所有文件，找出其中收录关键词[2]，然后计算相关性。

　　这个计算量不能满足实时返回排名结果的要求。搜索引擎会提前对所有关键词进行分类，将正向索引数据库重构为倒排索引，将文件映射到关键词转换成关键词到文件的映射，在倒排索引，关键词为主键，每个关键词对应一系列文件，如下图第一行右侧所示的文件，都是收录关键词1。这样，当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，可以立即找到收录这个关键词的所有文件。

　　三、搜索结果排名

　　前一个蜘蛛抓取页面后，数据预处理和索引程序计算倒排索引，搜索引擎随时准备处理用户搜索。用户在搜索框中输入想要查询的内容后，排名程序调用索引库的数据，计算排名后将内容显示在搜索结果页面上。

　　1、搜索词处理

　　搜索引擎收到用户输入的搜索词后，需要对搜索词进行一些处理，然后才能进入排名过程。搜索词处理过程包括：中文分词、去除停用词、指令处理。

　　完成上述步骤后，搜索引擎对剩余内容的默认处理方式是在关键词之间使用“与”逻辑。

　　例如，用户在搜索框中输入“如何减肥”。分词和停用词之后，剩下的关键词是“减肥”和“方法”。搜索引擎默认对用户要查询的内容进行排序，内容包括“减肥”和“方法”。

　　2、文件匹配

　　搜索词经过上面的处理后，搜索引擎得到一个关键词以单位为单位的集合。进入下一阶段：文件匹配阶段，即查找所有收录关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配。假设用户搜索“关键词1 关键词2”，排名程序只需要在倒排索引中找到“关键词1”和“关键词2”这些两个词，可以分别找到所有收录这两个词的页面文件。

　　3、初始子集的选择

　　找到收录所有关键词的匹配文件后，无法对这些文件进行关联计算，因为在实际情况中，经常会发现几个十、几百万甚至几千万的文件。实时对这么多文件进行相关计算需要很长时间。百度搜索引擎最多只会返回760条结果，所以只需要计算前760条结果的相关度即可满足要求。

　　由于所有匹配的文件已经具备了最基本的相关性（这些文件收录了所有查询关键词），搜索引擎会先过滤出1000个权重较高的页面，通过过滤权重来初始化一个子集，然后进行相关此子集中页面上的计算。

　　4、相关计算

　　选择带有权重的初始子集后，就是计算子集中页面的关键词相关性的步骤。计算相关性是排名过程中最重要的一步。影响相关性的主要因素包括以下几个方面：

　　① 关键词常用

　　分词后，多个关键词对整个搜索字符串的意义有不同的贡献。使用频率越高的词对搜索词的含义的贡献越小，而使用频率越低的词对搜索词的含义的贡献越大。因此，搜索引擎不会对搜索字符串中的关键词一视同仁，而是根据常用程度对其进行加权。生僻词权重系数高，常用词权重系数低。排序算法更关注生僻词。

　　②词频与密度

　　一般认为，在没有关键词积累的情况下，搜索词在页面上出现的频率更高，密度越高，页面与搜索词的相关性就越高。当然，这只是一般规律，实际情况可能并非如此，因此相关性计算中还有其他因素。频率和密度只是部分因素，其重要性越来越低。

　　③ 关键词位置和形式

　　如索引部分所述，页面关键词的格式和位置记录在索引库中。关键词出现在更重要的位置，如标题标签、粗体、H1等，说明该页面与关键词的相关度更高。这部分是页面的SEO应该解决的。

　　④ 关键词距离

　　分词后出现关键词的完全匹配表明它与搜索词最相关。例如，在搜索“减肥方法”时，页面上连续完整出现的“减肥方法”四个词最相关。如果“减肥”和“方法”这两个词不连续匹配，它们看起来更接近，也被搜索引擎认为稍微更相关。

　　⑤ 链接分析和页面权重

　　除了页面本身的因素，页面之间的链接和权重关系也会影响关键词的相关性，其中最重要的就是锚文本。在页面上将搜索词作为锚文本的导入链接越多，页面的相关性就越高。链接分析还包括链接源页面本身的内容主题、锚文本周围的文本等。

　　总结：以上优采云SEO详细分享了搜索引擎的工作原理。了解这些知识，对我们做百度网站收录来说意义重大。例如，标题应收录用户可能搜索的词。正文中适当的关键词或拆分词有助于判断内容和用户搜索词的相关性。

0

2021-11-11

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理(SEO经验分享：HTML中预处理的复制内容检测方法详解)

0 个评论

发起人

AI时代内容工厂

百度搜索引擎优化原理(SEO经验分享：HTML中预处理的复制内容检测方法详解)

0 个评论

发起人

相关问题