搜素引擎如何处理搜索引擎网页收集的过程及预处理

优采云 发布时间: 2021-05-03 02:02

  搜素引擎如何处理搜索引擎网页收集的过程及预处理

  上一篇文章文章谈到搜索引擎采集网页的过程以及搜索引擎用来抓取网页的工具和方法时,本文主要讨论搜索引擎如何处理抓取的网页进行预处理。

  首先,我们必须了解,搜索引擎检索到的原创页面无法直接参与排名,因此需要进行处理。我们称此为预处理过程。

  预处理是在后台由搜索引擎预先完成的,因此用户在搜索时不会感觉到它。当我们优化网站时,有很多方面会影响预处理过程。因此,我们需要对处理有深刻的了解。

  

  

  搜索引擎预处理

  一、提取文本

  以中文搜索引擎为例。搜索引擎将分析网页文件的HTML代码中的每个元素,并删除诸如标签和程序之类的元素以提取可用于网页排名的文本内容。因此,在优化网站时,请注意,网页应尽可能基于文本,并且不应使用图片代替文本,以使蜘蛛无法识别它。

  二、中文分词

  中文分词是搜索引擎从爬网页面中提取文本,然后对文本进行拆分和重新组织的过程。中文分词是中文搜索引擎迈出的独特一步。中文分析点有两种类型:字典匹配和基于统计的信息。

  1、基于字典的匹配方法是指将待分析的汉字片段与预建字典中的条目进行匹配。从要分析的中文字符串扫描字典中的现有条目将成功匹配,或者切出一个单词。如果遵循扫描方向,则基于字典的匹配方法可以分为正向匹配和反向匹配。根据匹配长度的优先级,可以分为最大匹配和最小匹配。首先混合扫描方向和长度,可以生成不同的方法,例如前向最大匹配和反向最大匹配。字典匹配方法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。

  2、基于统计的分词方法是指分析大量文本字符并计算相邻字符的统计频率。彼此相邻出现的字符越多,形成单词的可能性就越大。基于统计的方法的优点是它对新单词的反应更快,也有助于消除歧义。

  基于字典匹配和统计的分词方法各有优缺点。实际使用中的分词系统结合了两种方法,既快速又高效,可以识别新词和新词,消除歧义。

  在英语等语言中,单词之间有一个空格作为自然分隔,搜索引擎索引程序可以将句子直接分为单词组合。在中文中,单词之间没有分隔符。句子中的所有单词和单词都连接在一起。搜索引擎必须首先区分哪些字符组成一个单词,哪些字符本身就是一个单词。

  对于中文分词,第一次将从网页中提取的文本分为短语。例如,“ iPhone外壳多少钱”可以分为“ Apple手机”,“ Apple手机外壳”,“多少钱”,“ Apple手机外壳多少”钱。 -语义单词将被过滤,例如:de,de,ah,oh,ah,不仅如此,而且还会。

  在此我需要提醒您,在进行网站优化时,我们需要在网页上的适当位置(例如标题,标签中)显示关键词,以便搜索引擎将更多当我们想对单词进行分段时,精度很高。提取了优化的关键词。

  三、删除重复的页面

  页面重复数据删除是页面分段之后的下一步。比较细分的页面以删除重复的页面。

  如果许多相同的内容出现在搜索引擎中,则会影响用户的搜索体验。为了避免这种情况,搜索引擎将对页面进行重复数据删除。许多人喜欢在文章中插入非语义词以进行优化,例如:得,地或交换段落。这些伪原创实际上不可避免地会避免使用搜索引擎算法,因此在进行优化时,输出会很高。优质的内容为王。

  四、计算页面的重要性

  页面的重要性,也称为“重量”。页面权重主要由两个方面确定:网站内容质量和链接数(链接的链接数)。因此,外部链优化也是SEO的重要组成部分。 SEOer需要同时关注内容质量和链条进入。

  五、创建索引

  1、前部索引

  前面的索引也可以简称为索引(Index)。完成前面的步骤后,搜索引擎将获得一个唯一的单词字符串,可以反映该页面的主要内容。接下来,搜索引擎可以提取关键词,根据分词程序将关键词划分,将页面转换为关键词的集合,并在关键词上记录每个关键词的频率,出现次数和格式页面(例如标题标签,粗体字,H标签,锚文本等),位置和其他信息。这样,每个页面都可以记录为关键词组字符串,其中还记录了每个关键词的权重信息,例如词频,格式和位置。搜索引擎索引程序将页面和关键词的词汇结构存储到索引库中。下图显示了简化的索引词汇表:

  

  

  前部索引

  每个文件(即,处理的页面)对应于一个文件ID,并且文件的内容表示为一组关键词。实际上,在搜索引擎索引库中,关键词也已转换为关键词 ID。这种数据结构称为前向索引。

  2、倒排索引

  正索引不能直接用于排名。假设用户搜索关键词 2(请参见上图)。如果只有正索引,则排名程序需要扫描所有索引库文件以查找收录关键词 2的文件,然后执行相关性计算。此计算量无法满足实时返回排名结果的要求。

  因此,搜索引擎会将前向索引数据库重建为反向索引,并将从文件到关键词的映射转换为从关键词到文件的映射,如下图所示:

  

  

  倒排索引

  在倒排索引中,关键词是主键,每个关键词对应于一系列文件。该关键词出现在这些文件中,以便当用户搜索某个关键词时进行排序。当程序在反向索引中找到该关键词时,它可以立即找到所有收录关键词的文件。

  六、分析链接

  链接关系的计算是预处理中的重要步骤。主流搜索引擎排名因素都包括网页之间的链接流信息。有必要计算页面上的哪些链接指向其他页面,每个页面上的导入链接以及该链接的锚文本是什么。这些复杂的链接指向关系形成网站和页面的链接权重。

  以上六个步骤是搜索引擎预处理的整个过程。下一节将讨论用户搜索问题时搜索引擎如何返回数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线