seo优化搜索引擎工作原理(4.消除噪声搜索引擎需要识别并消除这些噪声(上))
优采云 发布时间: 2022-01-30 16:23seo优化搜索引擎工作原理(4.消除噪声搜索引擎需要识别并消除这些噪声(上))
一、爬取和抓取
1.蜘蛛
概念:搜索引擎用来爬取和访问页面的程序称为蜘蛛,也称为机器人;
2.以下链接
最简单的爬取查看方式分为深度优先和广度优先两种。
(1)深度优先
蜘蛛沿着它找到的链接爬行,直到前面没有更多链接,然后返回第一页并沿着另一个链接进一步爬行。
(2)广度优先
当蜘蛛在一个页面上发现多个链接时,它不会一直跟随一个链接,而是爬取页面上所有的一级链接,然后沿着二级页面上发现的链接爬到三级. 地面。
二、预处理
1.提取文本
今天的搜索引擎仍然基于文本内容。因此,预处理需要做的是从HTML文件中去除标签和程序,提取网页中可用于排名处理的文本内容,有时还会提取一些收录文本信息的特殊代码,比如在元标记和图像替换文本。、Flash 文件的替代文本、链接锚文本等。
2.中文分词
分词是中文搜索引擎特有的一个步骤。搜索引擎基于单词存储和处理页面和用户搜索。中文分词基本上有两种方法:字典匹配和基于统计。
例如,在百度搜索“搜索引擎优化”时,百度将“搜索引擎优化”视为一个词,而在谷歌中则分为“搜索、引擎、优化”三个词。所以百度的分词更合理,而谷歌的分词更趋于细化。
3.去停用词
页面内容中经常出现出现频率高但对内容没有影响的词,如“的、地、德”等助词,以及“啊、哈、啊”等感叹词。被称为停用词,搜索引擎会在对页面进行索引之前去除这些停用词,从而使索引数据的主题突出,减少不必要的计算量。
4.去除噪音
搜索引擎需要识别并消除这种噪音(如版权声明文本、导航栏、广告等),并且在排名时不要使用噪音内容。
5.删除
同一个文章经常在不同的网站和同一个网站的不同URL上重复出现,搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验也很差。搜索引擎希望只返回一个相同的文章,所以在索引之前需要识别并删除重复的内容。此过程称为“重复数据删除”。
6.正向索引
经过前面的工作,搜索引擎提取出关键词,按照分词程序对单词进行分词,将页面转换成一组关键词,并将每个关键词的内容记录在这一页。出现频率、出现次数、格式(如在标题标签、粗体、H标签、锚文本等)、位置(如页面第一段等)。这样每个页面可以记录为一组关键词,其中还记录了每个关键词的词频、格式、位置等权重信息,搜索引擎程序将然后记录页面和 关键词 形成词汇结构并存储在索引库中。
7.倒排索引
前向指数不能直接用于排名。假设用户搜索关键词“2”。如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词“2”文件的文件,然后进行相关性计算。这样的计算量不能满足及时返回排名结果的要求。因此,搜索引擎会将正向索引数据重构为倒排索引,并将文件对应到关键词的映射转换为关键词到文件的映射。
8.链接关系计算
页面之间的链接流信息现在收录在所有主要的搜索引擎排名因素中。搜索引擎爬取页面内容后,必须提前计算:页面上的哪些链接指向了其他哪些页面,每个页面上有哪些传入链接,链接使用了哪些锚文本。这些复杂的链接指向关系形成了 网站 和页面的链接权重。
9.特殊文件处理
虽然搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展,但距离通过读取图片、视频和 Flash 内容直接返回结果的目标还差得很远。图片和视频内容的排名往往基于与之相关的文字内容。