搜索引擎主题模型优化(查询扩展,在由伪相关反馈方法中的主题问题)

优采云 发布时间: 2022-01-20 19:18

  搜索引擎主题模型优化(查询扩展,在由伪相关反馈方法中的主题问题)

  摘要:搜索引擎技术的发展和应用改变了人们获取信息的方式。然而,在信息检索中,由于用户查询时间短,查询意图不明确,系统返回的文档往往不符合用户的搜索意图。为了提高检索性能,搜索引擎通常使用查询优化技术,包括查询扩展和查询推荐。在传统的优化方法中,伪相关反馈方法是一种有效的解决方案,但主题偏移问题会给优化效果带来负面影响,降低检索性能。对于查询扩展,从伪相关反馈文档中得到扩展词后,往往会简单的拼接到原创查询中。该方法不测量查询词与扩展词之间的相关性,但会对返回的文档进行排序。造成影响。对于查询推荐,由于搜索的日益专业化,如何从伪相关反馈文档中挖掘词进行推荐,以及如何获取查询词和推荐词之间的语义关系成为重要的研究问题。针对上述问题,本文从以下三个方面进行了研究:1.提出了一种主题推理策略,以解决伪相关反馈方法中的主题转移问题。首先,使用基于语言模型的评分策略获取反馈文档,并使用LDA主题模型对其进行建模;然后,通过基于Gibbs采样和词嵌入的方法推断查询句的主题,从而识别相关主题,改进基于主题模型的候选词获取方法。实验表明,词嵌入方法从语义的角度对查询进行了多方面的描述,反映了更多的语义信息。2.使用权重计算方法优化查询扩展中的文档评分策略。首先,使用主题推理策略获得候选扩展词;然后对它们进行特征计算,包括从词嵌入得到的统计特征和语义特征,并根据特征值对扩展词赋予不同的权重;最后进行二次检索,返回结果。实验表明,引入特征权重计算可以进一步提高伪相关反馈方法的检索效果。3.提出的词条推荐方法,进一步提升用户体验。首先,术语字典用于从伪相关的反馈文档中提取术语文档。对词条文档进行建模后,利用主题推理策略得到候选词条;然后建立关系识别算法,结合有监督和无监督的方法进行挖掘。查询词与词条词之间的语义关系,将具有语义关系的词推荐给用户。实验表明,该方法能更好地满足用户的搜索需求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线