seo优化搜索引擎工作原理(4.消除噪声搜索引擎需要识别并消除这些噪声（上）)

优采云发布时间: 2022-01-30 16:23

　　一、爬取和抓取

　　1.蜘蛛

　　概念：搜索引擎用来爬取和访问页面的程序称为蜘蛛，也称为机器人；

　　2.以下链接

　　最简单的爬取查看方式分为深度优先和广度优先两种。

　　(1）深度优先

　　蜘蛛沿着它找到的链接爬行，直到前面没有更多链接，然后返回第一页并沿着另一个链接进一步爬行。

　　(2）广度优先

　　当蜘蛛在一个页面上发现多个链接时，它不会一直跟随一个链接，而是爬取页面上所有的一级链接，然后沿着二级页面上发现的链接爬到三级. 地面。

　　二、预处理

　　1.提取文本

　　今天的搜索引擎仍然基于文本内容。因此，预处理需要做的是从HTML文件中去除标签和程序，提取网页中可用于排名处理的文本内容，有时还会提取一些收录文本信息的特殊代码，比如在元标记和图像替换文本。、Flash 文件的替代文本、链接锚文本等。

　　2.中文分词

　　分词是中文搜索引擎特有的一个步骤。搜索引擎基于单词存储和处理页面和用户搜索。中文分词基本上有两种方法：字典匹配和基于统计。

　　例如，在百度搜索“搜索引擎优化”时，百度将“搜索引擎优化”视为一个词，而在谷歌中则分为“搜索、引擎、优化”三个词。所以百度的分词更合理，而谷歌的分词更趋于细化。

　　3.去停用词

　　页面内容中经常出现出现频率高但对内容没有影响的词，如“的、地、德”等助词，以及“啊、哈、啊”等感叹词。被称为停用词，搜索引擎会在对页面进行索引之前去除这些停用词，从而使索引数据的主题突出，减少不必要的计算量。

　　4.去除噪音

　　5.删除

　　同一个文章经常在不同的网站和同一个网站的不同URL上重复出现，搜索引擎不喜欢这种重复的内容。用户搜索时，如果在前两页看到来自不同网站的同一篇文章文章，用户体验也很差。搜索引擎希望只返回一个相同的文章，所以在索引之前需要识别并删除重复的内容。此过程称为“重复数据删除”。

　　6.正向索引

　　经过前面的工作，搜索引擎提取出关键词，按照分词程序对单词进行分词，将页面转换成一组关键词，并将每个关键词的内容记录在这一页。出现频率、出现次数、格式（如在标题标签、粗体、H标签、锚文本等）、位置（如页面第一段等）。这样每个页面可以记录为一组关键词，其中还记录了每个关键词的词频、格式、位置等权重信息，搜索引擎程序将然后记录页面和关键词形成词汇结构并存储在索引库中。

　　7.倒排索引

　　前向指数不能直接用于排名。假设用户搜索关键词“2”。如果只有前向索引，排序程序需要扫描索引库中的所有文件，找到收录关键词“2”文件的文件，然后进行相关性计算。这样的计算量不能满足及时返回排名结果的要求。因此，搜索引擎会将正向索引数据重构为倒排索引，并将文件对应到关键词的映射转换为关键词到文件的映射。

　　8.链接关系计算

　　页面之间的链接流信息现在收录在所有主要的搜索引擎排名因素中。搜索引擎爬取页面内容后，必须提前计算：页面上的哪些链接指向了其他哪些页面，每个页面上有哪些传入链接，链接使用了哪些锚文本。这些复杂的链接指向关系形成了网站和页面的链接权重。

　　9.特殊文件处理

　　虽然搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展，但距离通过读取图片、视频和 Flash 内容直接返回结果的目标还差得很远。图片和视频内容的排名往往基于与之相关的文字内容。

0

2022-01-30

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo优化搜索引擎工作原理(4.消除噪声搜索引擎需要识别并消除这些噪声（上）)

0 个评论

发起人