搜索引擎中查找需求目标时需要构建查询词的服从幂律分布

优采云 发布时间: 2021-05-23 23:15

  搜索引擎中查找需求目标时需要构建查询词的服从幂律分布

  [摘要]:搜索引擎是人们获取信息的重要工具。用户搜索引擎在搜索需求目标时需要构造查询词。查询词的频率服从幂律分布。我们将分布末尾的查询词称为长尾查询。对真实搜索引擎数据的分析发现,长尾查询约占独立查询总数的70%,并且几乎所有用户都拥有长尾查询。然而,长尾查询的用户行为数据稀疏,难以直接使用现有的检索质量优化方法,这已成为搜索引擎的难题。通过对实际搜索引擎日志的采样和分析,我们发现长尾查询的很大一部分是由于表达不当造成的,这导致无法有效地检索正确的结果,而不是缺少满足需求的网络资源的用户。针对此问题,我们试图通过分析用户重写查询的行为来了解用户的查询需求,帮助用户找到合适的查询表达形式,并直接优化查询结果。本文的主要贡献如下:1.查询重写行为模式的分析和预测。结合以前的研究工作,查询重写行为模式分为四种类型:新主题,泛化,规范和并行。通过对真实搜索引擎日志样本数据的分析,提出了查询重写行为模式的预测和分类方法,总体准确率达到7 9. 29%,为进一步了解用户需求提供了依据。 2.自动评估长尾查询结果的相关性。分析长尾查询结果文档与显示情况和点击情况的相关性,提取点击特征,红色特征和搜索引擎排名特征,基于综合学习方法训练分类器,实现在预测结果的相关性方面取得了良好的结果。 3.提出了一种基于多结果融合的长尾查询性能改进方法。通过挖掘长尾查询的可能重写单词,搜索具有相似意图和更合适表达的查询单词。此外,将这些查询重写词的结果与原创查询的结果合并和排序,并在结果列表级别上直接改善了长尾查询。我们的方法引入了新的结果,而不仅仅是重新排序。在排序过程中,添加了表示是否可以改善原创查询的信息。在实际搜索引擎数据上进行的实验表明,该方法在ERR @ 10评估指数上实现了3. 69%的显着改进。值得一提的是,我们的方法对于提高非长尾查询的性能也很有效。 4.提出了一种基于用户意图理解的长尾查询性能改进系统。将查询重写行为的预测与多结果融合方法相结合,引入个人用户的个性化信息,针对性地引入新的结果文档,进一步提高了性能改善效果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线