搜索引擎如何搜得更准是其最重要的目标
优采云 发布时间: 2021-05-10 04:08搜索引擎如何搜得更准是其最重要的目标
目前,可以说搜索引擎是所有Internet应用程序中技术上最丰富的内容,尽管该应用程序的形式非常简单:用户输入查询词,然后搜索引擎返回搜索结果。但是,要为数亿互联网用户提供准确,快速的搜索结果,有许多技术手段。通常,搜索引擎技术希望实现的目标可以概括为:更全面,更快,更准确。所谓的“更全面”是指索引的网页数量。目前,任何商业搜索引擎索引网页的覆盖范围仅占Internet页面的一部分。可以通过改进与Web爬网程序相关的技术来实现此目标。
“更快”的目标贯穿搜索引擎的大多数技术指导。例如,直接提出与索引相关的技术,缓存和其他技术以实现此目标。许多其他技术(甚至对于分布式海量云存储平台)也间接地为这一目的提供服务,以能够处理大量Web数据,
实现对“更全面”和“更快”两个目标的回应和支持。
如上所述,搜索引擎如何更精确地搜索是其最重要的目标,那么搜索结果如何才能更精确?这涉及以下三个核心问题。
1.用户的真正需求是什么
搜索引擎用户输入的查询请求非常短,平均查询长度为2. 7个字。从这么短的查询请求中如何知道隐藏的真实用户需求?这是搜索引擎首先需要解决的非常重要的问题。如果无法获得用户的真实搜索意图,就无法讨论搜索的准确性,即使随后的内容匹配算法非常复杂,也无济于事。从另一个角度来看,即使对于相同的查询词,不同的用户也具有不同的搜索目的。如何识别这种差异?如果再进一步,即使相同的查询是由同一用户发送的,由于该用户位于不同的场景中,并且目的也有所不同,因此它可能会有所不同。如何识别呢?所有这些都是搜索引擎需要解决的核心问题,即当用户此时和在此处发出特定查询时,用户的真正搜索意图是什么。
2.哪些信息与用户需求真正相关
上面提到的第一个核心问题是从用户需求的角度来看的,另外两个核心问题是从数据的角度考虑的。搜索引擎本质上是一个匹配过程,也就是说,从海量数据中查找可以满足用户需求的内容。因此,在达到了明确用户真实意图的前提之后,如何找到可以满足用户需求的信息就成为关键因素。判断内容和用户查询的相关性关键词一直是信息检索领域的核心研究课题,不断提出的信息检索模型正试图解决这一问题。相关研究持续了近60年。尽管已经提出了新的方法,并且搜索效果总体上得到了逐步改善,但是该领域的基本指导思想仍然基于关键词的匹配,包括所有当前搜索引擎的相关性计算部分。基本计算思想与几十年前没有本质区别。
我们如何在这个核心问题上取得突破?这个问题将变得越来越重要,从关键词匹配到使机器真正了解信息的含义是解决此问题必须克服的阈值。从目前的观点来看,尽管包括人工智能在内的许多相关研究领域都取得了进展,但短期内仍未找到解决该问题的明确技术思路。
3.用户可以信任的信息
搜索本质上是寻找可以满足用户需求的信息。尽管相关性是衡量信息是否满足用户需求的重要方面,但这还不是全部。信息是否值得信赖是另一个重要指标。
从某种角度讲,链接分析可以改善搜索结果的原因可以被视为对信息可信度的判断。网页的重要性被用作判断是否值得信赖的标准,而返回到重要的网页则意味着返回到可信的网页。