基于搜索引擎的中文自动问答系统设计与实现一个改进
优采云 发布时间: 2021-05-27 05:30基于搜索引擎的中文自动问答系统设计与实现一个改进
[摘要]:我们正处于一个信息极为丰富的时代,人们对快速,准确地访问信息有很高的要求。搜索引擎因其便捷和快速响应而受到人们的欢迎,它们已成为获取信息的最重要方式。但是,搜索引擎很难用关键词的搜索方法清楚地表达用户的意图,并且仍然需要用户通过以网页形式返回结果来手动搜索答案。因此,自动问答系统应运而生,但传统的自动问答系统存在信息覆盖不全,更新不及时的缺陷,需要维护庞大的知识库。为了充分发挥两者的优势,本文打算结合两者来设计和实现一种改进的基于搜索引擎的中文自动问答系统。本文的主要工作如下:(1)改进Site Q算法并提出Topic-Site Q算法:第一和最后一段以及第一和最后一个句子对语义有更大的贡献。多特征融合段落检索算法Topic-Site Q:使用多特征融合算法计算第一个和最后一个句子的语义相似度,并使用一定的权重来反映它们对段落相关性的贡献,同时提高第一和最后段落的得分。最后,根据得分值对段落进行排序,并返回候选段落集。基于语义依赖树的答案提取算法:基于语义依赖树的答案提取算法主要考察语义和语法结构且检查方法单一不够全面。作为重要的语义特征之一,单词频率应反映在答案提取算法中。本文对基于语义依赖树的答案提取算法进行了改进,考虑了关键词的频率,并使用对数线性模型将两者结合在一起,提出了一种基于语义依赖树的改进答案提取算法。 (3)设计并实现了一种改进的基于搜索引擎的中文自动答疑系统,并根据改进的两种算法对系统进行了优化。优化。首先,详细分析系统的需求,然后分析其总体结构描述了系统的组成部分,给出了系统*敏*感*词*,在详细的设计和实现部分中,详细讨论了每个模块的功能,处理流程,实现细节以及所使用的核心算法。 (4)为了验证所提出的优化方法的有效性,人为地构建了问题测试集,以测试算法和系统的改进效果以及之前和之后两种算法的MRR值经过改进,计算出使用改进算法的系统,对准确率,召回率和F1值进行了比较和分析。结果表明,改进算法具有良好的效果,改进后的系统性能得到了改善。