seq搜索引擎优化至少包括那几步?(如何自动分类搜索查询过去(1)_社会万象_光明网(图))
优采云 发布时间: 2022-04-18 07:33seq搜索引擎优化至少包括那几步?(如何自动分类搜索查询过去(1)_社会万象_光明网(图))
利用数据点之间的接近度可以揭示它们之间的语义关系。通常,向量是为搜索查询和可以放置在彼此之间的文档创建的。另一种用法是从文档和其中的术语创建向量,以识别它们的概念或主题。向量也可以由人、品牌、公司或主题等实体组成。
为了利用向量空间分析,首先需要对文档进行索引并将其映射到构成相关主题语料库的概念或主题领域。执行此步骤的过程是潜在语义索引 (LSI),它可以创建在精度和召回率方面提供最佳结果的向量空间。使用这种方法,还可以对与主题相关的术语进行语义分类或聚类。
如何自动分类搜索查询
过去,主要问题是缺乏可扩展性,因为搜索查询必须手动排序。以下是 Google 前副总裁 Marissa Mayer 在 2009 年接受采访时所说的:
我们更愿意专注于可以扩展的事物。如果我们能提出一个可扩展的语义搜索解决方案,我们会非常兴奋。到目前为止,我们看到的是,我们的许多方法都接近语义搜索的智能,但通过其他方法实现。
当我们谈论 Google 识别搜索、查询或文档的含义时,我们所说的语义理解大部分是建立在统计方法上的,例如向量空间分析或统计文本分析方法(例如 TF-ID)。所以,严格来说,这不是基于真正的语义。但结果确实非常接近语义理解。机器学习应用的增加——以及更详细的分析——使得搜索查询和文档的语义解释变得更加容易。
语义理解是谷歌的目标之一
Google 最重要的目标之一是实现对搜索词和索引文档的语义理解,以便显示更多相关的搜索结果。当(搜索)查询及其收录的术语可以明确理解时,就存在语义理解。明确的解释往往因怀疑而变得困难,包括具有多重含义的术语、系统不清楚的术语、措辞不清楚、个人理解等。
为了帮助理解,分析所使用的词、它们的顺序以及主题的上下文、时间和地点。机器学习和/或 RankBrain 使 Google 能够使用聚类分析来自动创建新类并将搜索查询分配给它们。这不仅创造了高水平的细节,而且创造了可扩展性和改进的性能。也可以为向量空间分析创建新的向量空间。
通过这种方式,统计数据与机器学习相结合,以提供越来越接近搜索查询和文档的语义理解的语义解释。谷歌希望借助统计方法和机器学习重新创建真正的语义搜索。此外,现代谷歌的核心要素——搜索引擎知识图谱也是基于语义结构的。
在关于 Google 语义和机器学习的本系列 文章 的第三部分中,Olaf Kopp 将探讨语义的基础:图、实体和本体。