第二代搜索引擎的核心是信息的可靠性。
优采云 发布时间: 2021-06-09 04:19第二代搜索引擎的核心是信息的可靠性。
目录搜索引擎的核心是信息的可靠性。由于目录中收录的网站是经过人工精心挑选的,因此具有很强的可靠性。但不考虑用户的需求和相关性,而是由用户的自由浏览决定。
对于文本检索搜索引擎来说,查询关键词和网页内容的相关性很重要。这种搜索方式假设用户输入的查询关键词是用户的实际需求。显然,这个假设很难成立。此外,这种搜索方法无法识别信息的可信度。
第二代搜索引擎引入了链接分析技术。链接关系是推荐的意思。推荐页面越多,链接分析得分越高。这实际上是一个页面可信度的指标。同时,二代搜索引擎也使用文本检索模型来计算查询和网页内容的相关性。因此,二代搜索引擎在考虑信息的相关性和可信度的同时,并没有关注用户需求。
三代搜索引擎着眼于用户的真实需求,其他方面兼顾二代搜索引擎的优势,即三代搜索引擎同时考虑三个核心问题.
作为互联网应用中的主要技术内容应用之一,优秀的搜索引擎需要复杂的架构和算法来支持海量数据的获取和存储以及对用户查询的快速准确响应。这部分主要从宏观的角度介绍了搜索引擎的整体框架和各个组件模块的功能。
在架构层面,搜索引擎需要能够获取、存储和处理数百亿个网页,同时保证搜索结果的质量。如何获取、存储和计算如此大量的数据?如何快速响应用户查询?搜索结果如何满足用户的信息需求?这些是搜索引擎面临的技术挑战。
通用搜索引擎架构*敏*感*词*。搜索引擎由多个技术模块组成,每个模块负责整体功能的一部分,相互配合形成完整的整体框架。
搜索引擎的信息来源来自互联网网页。整个互联网信息都是通过网络爬虫在本地获取的。由于互联网网页有相当一部分内容相同或几乎重复,“网页去重”模块会检测到这一点,并删除重复内容。
之后,搜索引擎会解析网页,提取网页的主要内容,并链接到网页中收录的其他网页。为了加快对用户查询的响应,倒排索引用于保存网页内容,它是一种快速查询的数据结构,同时也保存了网页之间的链接。保留链接关系的原因是,在网页相关性的排名阶段,这种关系是可用的。链接分析可以确定页面的相对重要性,这对于用户提供准确的搜索结果非常有帮助。
由于网页数量庞大,搜索引擎不仅需要存储网页的原创信息,还需要存储一些中间处理结果。使用一台或几台机器显然是不现实的。为此,谷歌等商业搜索引擎开发了一套云存储和云计算平台,利用数万台普通PC构建可靠的海量信息存储和计算架构,作为搜索引擎及相关应用的基础支撑。
上面提到的是搜索引擎如何获取和存储大量与网络相关的信息。这些功能不需要实时计算,可以作为搜索引擎的后端计算系统。搜索引擎的重要目的是为用户提供准确、全面的搜索结果。如何实时响应用户查询并提供准确结果,构成了搜索引擎的前端计算系统。
当搜索引擎收到用户的查询时,首先需要对查询进行分析,希望通过将查询与用户的信息相结合,正确推断出用户的真实搜索意图。之后,搜索引擎缓存系统存储不同查询意图对应的搜索结果。如果在缓存系统中可以找到满足用户需求的信息,则可以将搜索结果直接返回给用户,既节省了重复计算的资源消耗,又加快了搜索速度。响应速度:如果缓存中存储的信息不能满足用户的需求,搜索引擎需要调用“页面排序”模块功能,根据用户的查询实时计算哪些页面满足用户的信息需求,并进行排序输出作为搜索结果。页面排名的两个重要参考因素中,一个是内容的相似度,哪些页面与用户的查询密切相关;另一个是页面的重要性,哪些页面质量好或者比较重要,通常可以从链接分析的结果中获得。结合以上两个考虑,我们可以将网页排序到用户查询的搜索结果中。