百度搜索引擎优化原理(4.消除噪声搜索引擎需要识别并消除这些噪声（上）)

优采云发布时间: 2021-11-09 07:08

　　一、爬爬爬行

　　1.蜘蛛

　　概念：搜索引擎用来抓取和访问页面的程序称为蜘蛛，也称为机器人；

　　2.追踪链接

　　有两种最简单的爬取查看方法：深度优先和广度优先。

　　(1）深度优先

　　蜘蛛沿着发现的链接爬行，直到它前面没有更多的链接，然后返回到第一页并沿着另一个链接爬行。

　　(2）广度优先

　　当蜘蛛在一个页面上发现多个链接时，它不会一直沿着一个链接前进，而是爬取页面上所有的一级链接，然后沿着二级页面上找到的链接爬到第三层.

　　二、预处理

　　1.提取文本

　　当前的搜索引擎仍然基于文本内容。因此，预处理需要做的就是从HTML文件中去除标签和程序，提取网页中可用于排名处理的文本内容，有时还提取一些收录文本信息的特殊代码，比如Meta中的文本标签，并用文字代替图片。, Flash 文件的替代文本、链接锚文本等。

　　2.中文分词

　　分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面，用户搜索基于单词。中文分词基本上有两种方法：基于字典的匹配和基于统计的匹配。

　　例如，在百度中搜索“搜索引擎优化”时，百度将“搜索引擎优化”视为一个词，而在谷歌中则分为“搜索、引擎、优化”三个词。因此，百度细分更合理，而谷歌细分往往更细致。

　　3.去阻止这个词

　　页面内容中经常有出现频率高但对内容没有影响的词，如“的、地、得”等助词和“啊、哈、啊”等感叹词。这些词被称为停用词，搜索引擎会在索引页面之前去除这些停用词，使索引数据的主题突出，减少不必要的计算量。

　　4. 消除噪音

　　5.卸重

　　相同的文章经常会在不同的网站上重复出现，而相同的网站会出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时，如果在前两页看到来自不同网站的同一篇文章文章，用户体验也很差。搜索引擎希望在同一个文章中只返回一篇文章，因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。

　　6.远期索引

　　搜索引擎在之前的工作之后提取关键词，根据分词程序将页面转换成关键词的集合，并记录页面上每个关键词的频率、出现次数、格式（如标题标签、粗体、H 标签、锚文本等）、位置（如页面第一段等）。这样每个页面都可以记录为一串关键词集合，其中还记录了每个关键词的词频、格式、位置等权重信息，搜索引擎程序将然后记录页面，关键词形成词汇结构，存入索引库。

　　7.倒排索引

　　前向索引不能直接用于排名。假设用户搜索关键词“2”。如果只有前向索引，排序程序需要扫描索引库中的所有文件，找出哪些收录关键词 "2" ，然后计算相关性。这个计算量不能满足及时返回排名结果的要求。因此，搜索引擎会将正向索引数据重构为倒排索引，将文件到关键词的映射转换为关键词到文件的映射。

　　8. 链接关系计算

　　所有主流搜索引擎排名因素现在都包括网页之间的链接流信息。搜索引擎抓取页面内容后，必须提前计算：页面上的哪些链接指向其他页面，每个页面上有哪些导入链接，链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

　　9.特殊文件处理

　　尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展，但离通过读取图片、视频和Flash内容直接返回结果的目标还差得很远。图片和视频内容的排名往往以与其相关的文字内容为依据。

0

2021-11-09

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理(4.消除噪声搜索引擎需要识别并消除这些噪声（上）)

0 个评论

发起人