百度搜索引擎优化原理(4.消除噪声搜索引擎需要识别并消除这些噪声(上))
优采云 发布时间: 2021-11-09 07:08百度搜索引擎优化原理(4.消除噪声搜索引擎需要识别并消除这些噪声(上))
一、 爬爬爬行
1.蜘蛛
概念:搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人;
2.追踪链接
有两种最简单的爬取查看方法:深度优先和广度优先。
(1) 深度优先
蜘蛛沿着发现的链接爬行,直到它前面没有更多的链接,然后返回到第一页并沿着另一个链接爬行。
(2)广度优先
当蜘蛛在一个页面上发现多个链接时,它不会一直沿着一个链接前进,而是爬取页面上所有的一级链接,然后沿着二级页面上找到的链接爬到第三层.
二、预处理
1.提取文本
当前的搜索引擎仍然基于文本内容。因此,预处理需要做的就是从HTML文件中去除标签和程序,提取网页中可用于排名处理的文本内容,有时还提取一些收录文本信息的特殊代码,比如Meta中的文本标签,并用文字代替图片。, Flash 文件的替代文本、链接锚文本等。
2.中文分词
分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面,用户搜索基于单词。中文分词基本上有两种方法:基于字典的匹配和基于统计的匹配。
例如,在百度中搜索“搜索引擎优化”时,百度将“搜索引擎优化”视为一个词,而在谷歌中则分为“搜索、引擎、优化”三个词。因此,百度细分更合理,而谷歌细分往往更细致。
3.去阻止这个词
页面内容中经常有出现频率高但对内容没有影响的词,如“的、地、得”等助词和“啊、哈、啊”等感叹词。这些词被称为停用词,搜索引擎会在索引页面之前去除这些停用词,使索引数据的主题突出,减少不必要的计算量。
4. 消除噪音
搜索引擎需要识别并消除这些噪音(如版权声明文字、导航栏、广告等),排名时不使用噪音内容。
5.卸重
相同的文章经常会在不同的网站上重复出现,而相同的网站会出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验也很差。搜索引擎希望在同一个文章中只返回一篇文章,因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。
6.远期索引
搜索引擎在之前的工作之后提取关键词,根据分词程序将页面转换成关键词的集合,并记录页面上每个关键词的频率、出现次数、格式(如标题标签、粗体、H 标签、锚文本等)、位置(如页面第一段等)。这样每个页面都可以记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息,搜索引擎程序将然后记录页面,关键词形成词汇结构,存入索引库。
7.倒排索引
前向索引不能直接用于排名。假设用户搜索关键词“2”。如果只有前向索引,排序程序需要扫描索引库中的所有文件,找出哪些收录 关键词 "2" ,然后计算相关性。这个计算量不能满足及时返回排名结果的要求。因此,搜索引擎会将正向索引数据重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射。
8. 链接关系计算
所有主流搜索引擎排名因素现在都包括网页之间的链接流信息。搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。
9.特殊文件处理
尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但离通过读取图片、视频和Flash内容直接返回结果的目标还差得很远。图片和视频内容的排名往往以与其相关的文字内容为依据。