seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

优采云发布时间: 2022-02-02 20:16

　　只有让我们的网站向上面的4条信息靠拢，才会被蜘蛛发现并收录放入数据库。那么，当我们的网站信息是百度收录时，可以分为以下几个步骤：

　　1、预处理。在一些 SEO 资料中，“预处理”也简称为“索引”，因为索引是预处理中最重要的步骤。我们知道百度数据库中的收录并不是现成的页面，而是“HTML”标签的源码。搜索引擎预处理的工作内容首先去掉了HTML代码，剩下的用于排名的文字只有一行。

　　除了可见文本，搜索引擎还会提取一些收录文本信息的特殊代码，例如：META标签中的文本、图片替代文本、Flash文件中的替代文本、链接锚文本等。

　　2、中文分词（这是中文搜索引擎独有的，谁让我们的文化博大精深，没办法，任性！）。中文分词基本上有两种方法： 1、基于字典匹配--将一个待分析的汉字与预制字典中的一个词条进行匹配，将待分析的汉字字符串扫描到字典中已经被扫描了。部分词条匹配成功，或词条被切分。2、基于统计——指分析大量文本样本，计算相邻单词的统计概率。出现的相邻单词越多，形成单词的可能性就越大。

　　3、去找停用词。停用词——无论是英文还是中文，在页面内容中频繁出现但对内容没有影响的词，如“的”、“地”、“de”、“ah”、“ “ha”、“ya”等感叹词、“therefore”、“yi”、“but”等副词或介词称为停用词。因为这些停用词对页面的主要含义影响不大，搜索引擎将页面索引前去除停用词，使索引数据的主题更加突出，减少不必要的计算量。

　　4、去除噪音。所谓噪声，就是除了停用词之外对页面主题没有贡献的因素，比如：“文章分类”、博客页面的“历史档案”等。

　　去噪的基本方法：根据HTML标签，将页面分块，区分页眉、导航、文本、页脚等区域。网站上重复出现的块是噪音。页面去噪后，剩下的就是页面主题内容。

　　5、删除。搜索引擎还需要在索引之前识别和删除重复的内容，这个过程称为“重复数据删除”。重点是改善用户体验（搜索引擎不喜欢重复的内容）。

　　去重法：“去重”的基本方法是计算页面特征关键词的指纹，也就是选择最有代表性的部分关键词（往往是出现频率最高的部分） ) 从页面主题内容关键词)，然后计算这些关键词的数字指纹。

　　6、正向索引。前向索引也可以称为索引。搜索引擎索引程序将页面和关键词存储到词汇结构中，并将它们存储在索引库中。并且它的关键词内容是通过文件ID映射的，一一对应。

　　7、倒排索引。正向索引还不能用于排名，倒排索引最终用于排名。因此，搜索引擎会将正向索引数据库重构为倒排索引，并将关键词对应的文件映射转换为关键词的文件映射。

　　8、链接关系计算。链接关系计算也是预处理的重要组成部分。搜索引擎爬取页面内容后，必须提前计算：页面上的哪些链接指向其他哪些页面每个页面的传入链接是什么？页面的链接权重。

　　9、特殊文件处理。

　　除了抓取 HTML 文件外，搜索引擎通常可以抓取和索引各种基于文本的文件类型，例如 PDF、WORDS、WPS、PPT、TXT 等文件。目前，搜索引擎无法处理图片、视频、Flash等非文本内容，也无法执行脚本和程序。

　　小编自己的看法：（此时可以利用它的特点。我们都知道网站的相关性直接影响到网站的排名，我们的网站一定要穿插和其他不相关的信息，比如*敏*感*词*等。我们可以把这些做成图片或者视频放到我们的网站上，这样百度预处理器就无法识别图片或者视频了，我们的相关性会高于其他网站，百度当然会优先推荐给用户！）

　　做完上面的事情，最后的工作就是排位了。由于这里写不出来，希望大家关注我的下一篇文章文章，我会详细讲解搜索引擎是如何对我们的网站进行排名的。有什么问题也欢迎私聊我！

0

2022-02-02

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

0 个评论

发起人

AI时代内容工厂

seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

0 个评论

发起人

相关问题