关键词自动采集生成内容系统(的基于深度学习的应急管理类客观题自动生成系统)

优采云 发布时间: 2022-01-19 01:12

  关键词自动采集生成内容系统(的基于深度学习的应急管理类客观题自动生成系统)

  技术特点:

  1.一种基于深度学习的应急管理目标题自动生成系统,其特点在于包括:

  基于现有应急管理相关文献和爬虫爬取的互联网应急管理相关文献,得到待分析原创数据的应急管理类文章采集模块;

  对于待分析的原创数据中的文章标题,利用标题分类模块进行标题类型的二次分类和标题中描述的灾害类型的分类;

  文本内容重要性排序模块,根据标题分类模块得到的分类结果对文本进行处理;

  对于标题分类模块中被分类为非科普的文章,建立基于bert预训练语言模型的序列标注模型的正确候选答案生成模块;

  待分析的所有原创数据集经过正确候选答案生成模块处理后,得到收录分类信息和实体类型的客观问题及其对应答案,错误候选答案生成模块取出正确候选中的问题依次生成答案模块。

  2.根据权利要求1所述的基于深度学习的应急管理客观题自动生成系统,其特征在于,根据待分析的原创数据中的标题,进行标题类型分类和分类两种。标题中描述的灾害类型分类包括:

  对数据库中与事故和灾害相关的所有文本、紧急类别和新闻进行人工标注和分类;

  使用了bert预训练语言模型,结合两个softmax分类模型进行微调处理。

  3.根据权利要求2所述的基于深度学习的应急管理客观题自动生成系统,其特征在于,使用bert预训练语言模型,结合两个softmax分类模型进行微调处理包括:以下步骤:

  将标题文本序列传入bert预训练语言模型;

  然后将编码后的向量序列分别连接到两个softmax分类模型,进行标题类型的二次分类和灾害类型的多分类;

  以交叉熵作为损失函数,将两个分类损失相加作为模型的最终代价损失,以最小代价损失为目标训练模型,得到bert预训练语言模型和两个softmax微调处理后的分类模型。

  4.根据权利要求1所述的基于深度学习的应急管理客观题自动生成系统,其特征在于,根据文章标题分类模块得到的分类结果对文本进行处理包括以下步骤: :

  将输入文本的内容分成句子t=[s1,s2,...,sn],构造图g=(v,e),其中v是句子集,对句子进行切分,去掉停用词,得到 si=[ti,1,ti,2,...,ti,n],其中 ti,j∈sj 为保留候选关键词;

  在图g中构造边集e,根据句子之间的内容覆盖度计算相似度,给定两个句子si,sj

  根据迭代传播权重计算每个句子的得分,将句子得分倒序排列,提取重要性最高的t个句子作为候选摘要句子。

  5.根据权利要求4所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,给定两句si、sj的相似度计算包括:

  6.根据权利要求4所述的基于深度学习的应急管理客观题自动生成系统,其特征在于,如果文章题名分类模块的第二分类结果为文章@科普> ,根据段落提取关键句,提取每段时t的值为1;对于文章的标题分类模块的第二分类结果为非科普文章,使用整个文章进行分析,t值为5。

  7.根据权利要求1所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,文章的题名分类模块的第二分类为非科普类文章 @>,基于bert预训练语言模型构建序列标注模型的正确候选答案包括:

  将每个句子逐词分割,根据策略给每个词一个标签,将训练集的词序列和对应的标签作为bert模型的输入,通过bert模型进行编码,然后传给bi_lstm -crf 模型进行训练。

  8.根据权利要求7所述的基于深度学习的应急管理客观问题自动生成系统,其特征在于,在预测阶段,将文本内容重要性排序模块中生成的关键句依次输入到训练中。 one 序列标注模型进行序列标注处理。当一个实体在句子中被标记时,该句子被视为一个单选题,该实体被掩蔽为该问题的正确候选答案。当句子中有n(n>1)个条目的情况下,句子可以重复n次,生成n个不同的选择题,每个选择题对应一个实体作为正确的候选回答。

  9.根据权利要求7所述的基于深度学习的应急管理客观题自动生成系统,其特征在于,基于文章标题分类模块,第二分类为文章、文章题目是不定多项选择题的题目。每次设置一个[1,4]范围内的整数随机数r,提取前r个关键句作为该问题的正确候选答案,并将正确的候选答案按照实体类型和应急管理文章采集模块生成的灾难类型。

  10.根据权利要求7所述的基于深度学习的应急管理类客观题自动生成系统,其特征在于,待分析的原创数据集全部经过正确候选答案生成模块处理后,系统收录分类信息、实体类型及其对应答案的客观题,以及正确候选答案生成模块中的题,依次取出,包括:

  如果问题是不定选择题,则从不定选择题库的答案集中选择与该题的正确候选答案灾难类别一致且实体类型数量最多的答案列表,并将文本相似度与正确答案。4-r候选答案被用作错误的候选答案;如果答案集中没有相同灾难类别的候选答案,但有相同实体类型的答案,则从相同实体类型的实体中随机选择实体替换原正确候选答案中的实体,生成错误候选答案;如果答案集中没有一致的灾难类别且正确答案中没有实体,

  如果正确候选答案生成模块是单选题,则根据问题的灾难类型和正确候选答案的实体类型,随机选择与原创正确候选答案最接近的字符长度在答案集中相同的灾难类型和实体类型。如果答案集中的错误候选答案数量不足,则由nltk生成答案的反义词作为错误候选答案的补充。

  技术总结

  本发明涉及计算机领域,具体涉及一种基于深度学习的应急管理目标问题自动生成系统,包括应急管理文章采集模块,用于获取待分析的原创数据;@文章Title 用于标题类型的二级分类,文章title 分类模块用于标题中描述的灾难类型的分类;根据文章title分类模块得到的分类结果处理的文本的文本内容是重要度排序模块;对于标题分类模块中分类为非科普类的文章,基于BERT预训练语言模型,为序列标注模型建立正确的候选答案生成模块;生成正确的候选答案模块中的问题的错误候选答案生成模块被取出。本发明基于应急管理类文章采集模块、文章标题分类模块、文本内容重要性排序模块、正确候选答案生成模块、错误自动生成客观的应急评估候选答案生成模块问题。

  技术研发人员:朱安安;邱彦林;陈尚武

  受保护的技术用户:

  技术研发日:2020.07.07

  技术公告日期:2020.10.16

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线