搜索引擎优化知识完全手册(优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争力)

优采云 发布时间: 2021-09-04 13:36

  搜索引擎优化知识完全手册(优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争力)

  搜索引擎技术架构原理

  作为互联网应用中技术含量最高的应用之一,优秀的搜索引擎需要复杂的架构和算法来支持海量数据的获取和存储,以及对用户查询的快速准确响应。本节主要从宏观角度介绍搜索引擎的整体结构和各个组件模块的功能。

  从架构层面来说,搜索引擎需要能够获取、存储和处理数百亿个网页,同时保证搜索结果的质量。如何获取、存储和计算如此大量的数据?如何快速响应用户查询?如何使搜索结果满足用户的信息需求?这些是搜索引擎面临的技术挑战。

  如图所示是一个通用的搜索引擎架构*敏*感*词*。搜索引擎由许多技术模块组成,每个模块负责整体功能的一部分,相互配合形成完整的整体结构。

  

  搜索引擎的信息来源来自互联网网页,通过网络爬虫在本地获取整个互联网的信息。由于网页上相当一部分内容完全相同或几乎重复,“网页去重”模块会检测到并去除重复

  内容。

  之后,搜索引擎将解析网页并提取网页的主要内容,以及该网页中收录的其他页面的链接。为了加快响应用户查询的速度,通过“倒排索引”的高效查询数据结构保存网页内容,同时保存网页之间的链接关系。之所以保存链接关系,是因为这个关系在网页的相关性排名阶段是可用的。可以通过“链接分析”判断页面的相对重要性,非常有助于为用户提供准确的搜索结果。

  由于网页数量众多,搜索引擎不仅需要存储网页的原创信息,还需要一些中间处理结果。使用单一或少量机器显然是不现实的。谷歌等商业搜索引擎为此开发了一套完整的云存储和云计算平台,利用数万台普通PC构建可靠的海量信息存储和计算架构,作为搜索引擎和相关应用。优秀的云存储和云计算平台已成为大型商业搜索引擎的核心竞争力。

  以上是搜索引擎如何获取和存储大量与网络相关的信息。这些功能不需要实时计算,可以看作是搜索引擎的后端计算系统。搜索引擎最重要的目的是为用户提供准确、全面的搜索结果。如何实时响应用户查询并提供准确结果,构成了搜索引擎的前端计算系统。

  当搜索引擎收到用户的查询时,首先需要对查询进行分析,希望将查询和用户信息结合起来,正确推断出用户的真实搜索意图。之后,首先查看缓存。搜索引擎的缓存系统存储了不同查询意图对应的搜索结果。如果在缓存系统中可以找到满足用户需求的信息,则可以直接将搜索结果返回给用户。节省重复计算的资源消耗,加快响应速度;如果缓存中存储的信息不能满足用户需求,搜索引擎需要调用“页面排序”模块功能,根据用户的查询实时计算哪些网页满足用户信息需要,排序后输出为搜索结果网页排名最重要的两个参考因素中,一个是内容相似度因素,即哪些网页与用户查询密切相关;另一个是网页重要性因素,即哪些网页质量好或者比较重要。这通常可以从链接分析的结果中获得。结合以上两个考虑,可以对网页进行排序并作为用户查询的搜索结果。

  除了上述子功能模块外,搜索引擎的“反作弊”模块也成为越来越重要的功能。搜索引擎作为网民的门户,对网络流量的引导和分流至关重要,甚至可以说起到了举足轻重的作用。于是,各种“作弊”手段逐渐流行起来,通过各种手段将网页的搜索排名提升到与其网页质量不相称的位置,严重影响用户的搜索体验。因此,如何自动发现并惩罚作弊页面成为搜索引擎非常重要的一环。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线