seo搜索引擎工作原理的第二步——预处理

优采云 发布时间: 2021-07-18 20:10

  seo搜索引擎工作原理的第二步——预处理

  在seo基础介绍第十四讲中,琉璃向同学们介绍了搜索引擎的工作原理爬取的第一步和爬取。下面我们来了解一下搜索引擎工作原理的第二步——预处理。众所周知,互联网页面非常大,用户搜索关键词时,蜘蛛需要实时反馈自己需要的信息。这时候就需要对之前抓取的页面进行预处理,为用户实时查询排名做好准备。

  预处理在某些 SEO 教程中也称为索引。但这不是很准确。严格来说,索引是搜索引擎预处理中最重要的内容。和蜘蛛爬行一样,预处理也是由引擎从后台提前完成的。下面我们来看看预处理的工作原理。

  

  seo基础入门第十五讲:搜索引擎工作原理的预处理

  1、第一步:提取代码文本信息

  蜘蛛爬取页面返回后,会去除页面中的代码标签,留下可用于排名的文字。如下图,

  

  2、第二步:中文分词

  为了更好地识别用户的搜索需求,搜索引擎会智能识别一段用户输入。分词主要基于词典匹配和用户统计。例如,“风马牛不相干”是词典中完整的词汇。所以当我们输入这个词表的时候,搜索引擎会把这个词表判断为一个词处理。这是基于字典分词。词搜索引擎“seo”通过用户的日常搜索将其判断为一个词汇。这也是为了更好地满足用户的搜索需求。企业品牌第一次推广时,既不是字典匹配,也不是用户统计。这时候,作为seoer,就需要提示搜索引擎把这些词当作一个词来对待。在页面中,您可以通过给品牌词添加黑色和彩色来提示搜索引擎。

  3、第三步:去停止词

  去停词是指在页面内容中频繁出现且对内容没有影响的词,如中文的“的”、“地”、英文的“an”、英文的“the”英语。 搜索引擎在预处理时会优先去除这些词,降低计算能力,提高排名展示效率。

  4、第 4 步:消除噪音

  这很容易理解。例如,很多插入到页面内容中的广告都与页面无关,这就是所谓的页面噪声。这些不相关的噪声将在预处理过程中被识别和消除。提取页面主要内容,为后续排名做准备。

  5.第五步:去重处理

  搜索引擎不希望用户在搜索关键词时显示排名内容是不同网站的相同内容,希望给用户填充更多的知识。去重的基本原理是在前四步完成后识别页面的主要关键词(通常是我们seo优化的关键词),完成去重步骤。一般是根据发布时间和网站权重来决定的。这里建议seo优化时,写伪原创文章不要过度复制原创,因为这样的操作很难改变文章的主关键词。

  6、第六步:正向索引&倒排索引

  正向索引是指经过前五步的净化,页面的主要内容变成了无数关键词组成的字符串。这时候搜索引擎会比较每个页面的关键词,主要是针对关键词的出现频率、频率、格式、位置等信息。存储在数据库中。

  倒排索引的建立是因为单靠前向索引不能快速直接地进行排序。这时候搜索引擎会将收录相同关键词的页面经过正向索引后聚合到数据库中。大大提高排名效率。

  7、第七步:链接关系

  链接关系是指搜索引擎对页面进行预处理时对页面的反向链接、出站链接和链接文本的计算,也就是我们的外链、友情链接和锚文本的含义。大多数搜索引擎将这种链接关系称为页面投票机制。听到这里,相信大家对我们为什么要做外链、友情链接、锚文本有了一定的了解。

  8、第八步:质量判断

  页面质量判断是在预处理阶段基于预先设定的算法对搜索引擎进行分析,最终为用户进行排名查询做准备。

  六六方案的要点:预处理阶段比爬行阶段复杂很多,大家一定要把这些理论知识搞清楚。这对未来的seo优化工作具有重要意义。如果您对搜索引擎预处理有任何疑问,请在下方留言。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线