seo优化搜索引擎工作原理(搜素引擎如何处理来的页面——预处理?)

优采云 发布时间: 2021-09-23 00:16

  seo优化搜索引擎工作原理(搜素引擎如何处理来的页面——预处理?)

  上一篇文章文章讨论了搜索引擎采集网页的过程,以及搜索引擎用来捕获网页的工具和方法。本文主要讨论搜索引擎如何处理捕获的页面-预处理

  首先,我们应该了解,搜索引擎捕获的原创页面不能直接参与排名,需要进行处理。我们称之为预处理

  预处理由搜索引擎在后台提前完成,用户在搜索时不会感觉到。当我们优化网站it时,有许多方面会影响预处理过程。因此,我们应该对预处理有一个深入的了解

  

  搜索引擎预处理

  一、extract text

  以中文搜索引擎为例,搜索引擎将分析网页文件HTML代码中的每个元素,删除标签、程序和其他元素,并提取可用于网页排名的文本内容。因此,在优化网站时,请注意网页应尽可能关注单词,不要使用图片而不是单词,这样蜘蛛就无法识别它们

  二、中文分词

  中文分词是指搜索引擎从捕获的页面中提取文本,并对文本进行拆分和重组。中文分词是中文搜索引擎的一个独特步骤。有两种中文分析点:基于词典的匹配和基于统计的匹配

  1、基于词典的匹配方法是指将要分析的汉字与预建词典中的条目进行匹配。如果在要分析的中文字符串中扫描词典中的现有条目,则匹配成功,或者删除一个单词。根据扫描方向,基于词典的匹配方法可分为正向匹配和反向匹配。根据匹配长度和优先级,可分为最大匹配和最小匹配。通过首先混合扫描方向和长度,可以生成不同的方法,如正向最大匹配和反向最大匹配。词典匹配方法计算简单,其准确性在很大程度上取决于词典的完整性和更新

  2、statistics分词方法是对大量文本词进行分析,计算相邻词的统计频率。出现的相邻单词越多,形成单词的可能性就越大。基于统计的方法的优点是可以更快地对生词做出反应,并且有助于消除歧义

  基于词典匹配和统计的分词方法各有优缺点。实际的分词系统使用这两种方法,速度快、效率高,能够识别新词和新词,消除歧义

  在英语和其他语言中,词与词之间存在着自然的分隔。搜索引擎索引程序可以直接将句子划分为单词组合。在汉语中,单词之间没有分隔符。一个句子中的所有单词都连接在一起。搜索引擎必须首先区分哪些词构成一个词,哪些词本身就是一个词

  在中文分词中,从网页中提取的单词应该第一次按照短语进行划分。例如,“苹果手机壳多少钱”可以分为“苹果手机”、“苹果手机壳”、“苹果手机壳多少钱”和“苹果手机壳多少钱”。在分词中,非语义词被过滤掉,比如De,De,啊,哦,啊,不仅如此,还有

  在这里,我们需要提醒您,在网站优化中,我们需要将关键词放在网页的适当位置,例如标题和标签中,以便搜索引擎能够更准确地提取我们要优化的关键词

  三、删除重复页面

  页面重复数据消除是页面分词之后的下一步。比较分词后的页面以删除重复页面

  如果搜索引擎中出现大量相同的内容,将影响用户的搜索体验。为了避免这种情况,搜索引擎将对页面进行重新处理。许多人喜欢在优化时在文章中插入非语义词,如“de”、“Di”、“de”或更改段落。事实上,伪原创,他们无法逃避搜索引擎的算法。因此,在进行优化时,最重要的是生成高质量的内容

  四、计算页面重要性

  页面的重要性,也称为“权重”。页面权重主要由两个方面决定:网站内容质量和链接数(指向的链接数)。因此,外链优化也是SEO的重要组成部分。SEOER需要关注内容质量和进入链

  五、索引

  1、远期指数

  远期指数也可以称为指数。在前面的步骤之后,搜索引擎将获得一个单词中的唯一字符串,该字符串可以反映页面的主要内容。接下来,搜索引擎可以提取关键词,根据分词程序划分关键词,将页面逐个转换成关键词组成的集合,并在页面上记录每个关键词的出现频率、出现次数、格式(如标题标签、粗体、H标签、锚文本等)、位置等信息。这样,每一页都可以记录为一个关键词集的字符串,还可以记录每个关键词的词频、格式、位置等权重信息。搜索引擎索引程序将页面和关键词形成的同义词表结构存储到索引库中。简化索引同义词表如下图所示:

  

  远期指数

  每个文件(即处理过的页面)对应一个文件ID,文件内容表示为一系列集合关键词。事实上,在搜索引擎索引库中,关键词it也被转换为关键词ID.这样,数据结构称为正向索引

  2、反向指数

  远期指数不直接用于排名。假设用户搜索关键词2(参见上图),如果只有正向索引,排名程序需要扫描所有索引库文件以查找@关键词2然后计算相关性。此计算量不能满足实时返回排名结果的要求

  因此,搜索引擎将正向索引数据库重建为反向索引,并将从file到关键词的映射转换为file,如下图所示:

  

  倒排索引

  在反向索引中,关键词是主键,每个关键词对应一系列文件。此关键词出现在这些文件中。这样,当用户搜索一个关键词并且分拣机在反向索引中找到这个关键词时,它可以立即找到收录这个关键词的所有文件@

  六、分析链接

  链接关系计算是预处理中非常重要的一步。主流搜索引擎的排名因素包括网页之间的链接流信息。您必须计算页面上的哪些链接指向其他页面,每个页面有哪些导入链接,链接的锚文本是什么,这些复杂的链接指向关系构成了网站和页面的链接权重

  以上六个步骤是搜索引擎预处理的整个过程。下一节将讨论用户搜索问题时搜索引擎如何返回数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线