seo优化全解第1版-搜索引擎入门详解( 预处理预处理基础入门第15课:搜索引擎工作原理的预处理)
优采云 发布时间: 2022-04-04 00:10seo优化全解第1版-搜索引擎入门详解(
预处理预处理基础入门第15课:搜索引擎工作原理的预处理)
六十六 seo基础介绍第十五讲:搜索引擎工作原理的预处理
在 SEO Fundamentals 的第 14 课中,我们向同学介绍了爬取的第一步以及爬取搜索引擎的工作原理。让我们学习搜索引擎如何工作的第二个预处理步骤。众所周知,网页很大,当用户搜索关键词时,蜘蛛需要实时反馈用户需要的信息。此时,需要对之前抓取的页面进行预处理,用户才能实时查询和排名。
在某些 seo 教程中,预处理也称为索引。但是,这不是很准确。严格来说,索引是搜索引擎预处理中最重要的事情。就像蜘蛛爬行一样,预处理是由引擎从后台提前完成的。让我们了解预处理是如何工作的。
预处理 预处理
第 6 课 SEO 基础知识入门第 15 课:搜索引擎工作方式的预处理
1、第一步:提取代码文本信息
蜘蛛爬取页面返回后,将页面中的代码标签去掉,留下可用于排名的文本。如下所示,
提取文本选择文本
2.第二步:中文分词
为了更好的识别用户的搜索需求,搜索引擎会智能识别用户输入的段落。分词主要基于字典匹配和用户统计。例如,“无关”是字典中的一个完整词。因此,当我们键入这个词时,搜索引擎会将这个词识别为一个词处理。这是基于字典的分词。但是,“六六SEO”这个词是由用户的日常搜索决定的。这也是为了更好地满足用户的搜索需求。在企业品牌推广之初,既没有字典匹配,也没有用户统计。此时,seoer需要提示搜索引擎将这些词视为一个词。在页面中,您可以通过添加黑色和颜色向搜索引擎推荐品牌词。
3.第 3 步:转到停用词
停用词(Tong stop words)是指经常出现在页面内容中且对内容没有影响的词,如中文中的“de”、“地”、“a”和“the”,可以是算是停用词。搜索引擎在预处理的时候会优先去掉这些词,降低计算能力,让排名展示更有效率。
4.第四步:降噪
这很容易理解。例如,插入页面的许多广告与页面无关,称为页面噪音。这些不相关的噪声将在预处理过程中被识别和消除。选择页面的主要内容,为后续排名做准备。
5.第五步:进入后期处理
搜索引擎不希望用户搜索 关键词 以不同的 网站 显示相同的内容。他们想给用户更多的知识。去重的基本原理是在完成前四个步骤后,识别出页面的主要关键词(通常是SEO优化的关键词),从而完成去重步骤。一般来说,发表时间和网站权重是主要因素。这里建议优化seo的时候,写伪原创文章的时候不要复制太多原创文章,因为这样的操作很难改主文章@ >关键词.
6.第 6 步:正向和反向索引
前向索引是指经过前五个清理步骤后由许多关键字组成的字符串。这时搜索引擎会比较每个页面的关键词,主要包括关键词的出现频率、频率、格式、位置等信息。存储在数据库中。
建立倒排索引是因为只进索引不能直接用于快速排名。此时,搜索引擎会在进行前向索引后采集并存储收录相同关键字的页面。排序效率大大提高。
7.第 7 步:链接关系
链接关系是指搜索引擎对页面进行预处理时对页面的反向链接、反弹链接和链接文本的计算,也就是我们所说的出站链接、友情链接和锚文本。大多数seoers也将这种链接关系称为页面投票机制。听完这里,相信大家对我们为什么要做外链、友情链接和锚文本有了一些了解。
8.第八步:质量判断
页面质量判断是指搜索引擎在预处理阶段根据预设算法进行分析,最终为用户查询排名做准备。
六六点:预处理阶段比爬行阶段要复杂得多,大家一定要了解并充分理解这些理论知识。这对未来的 SEO 优化具有重要意义。如果您对搜索引擎预处理有任何疑问,请在下方留言。