关键词文章采集源码(数据集、实现代码介绍:候选词生成(下))
优采云 发布时间: 2021-09-19 03:06关键词文章采集源码(数据集、实现代码介绍:候选词生成(下))
目录:第1部分:概述第2部分:数据集和实现代码简介第3部分:特征设计第4部分:候选词生成(I)第5部分:候选词生成(II)第6部分:性能比较
这个博客将介绍我的关键词提取系统使用的数据集和我实现的代码结构。如果读者想在阅读博客时查看数据并运行代码,这将是一个很好的指南
2.1数据集简介
本文中用于培训和测试的数据来自semeval 2017任务10。有500篇论文来自计算机科学、材料科学和物理学领域,每一篇都收录选定的段落和关键词注释信息。其中350个用作训练集,其余150个用作测试集。每篇论文的选定段落约为200字的纯文本,不包括标题和摘要等结构信息。对测试集进行简单的统计,每张试卷都标有关键词约20。可以看出,该数据集具有以下特点:文本长度较短,但标签数关键词远高于正常值,这有利于机器学习取得更好的效果。这里有两个文本截图和相应的关键词标签,可以获得直观的感觉
您可以从semeval 2017任务10的官方网站获取有关数据集的更多信息
2.2实现代码介绍
我的系统分两步实现关键词提取。Mr.首先形成候选词,然后使用分类模型在候选词上选择关键词。在候选词生成阶段,我们使用了两种方法,名词短语提取和CRF注释,并在第六章中比较了它们的性能
这里的代码SRC是在Python3中使用nltk、sklearn和其他库实现的。一些数据不包括在内,例如单词向量和训练数据
代码的内容和每个文件的含义描述如下:
根目录:
--Main.py运行文件
--Ekrsy/code文件夹
----init.py
----py实现文档和关键字类
----Feature.py实现各种功能来提取特征
----Util.py封装了一些工具和方法
----py封装了从文件中读取字向量的功能
----Test.py一些测试方法
----Log.py定义日志格式
----crf_u工具.py实现了crf++注释的数据转换,并调用模型进行注释
----py实现了提取候选词的功能
----py实现各种分类模型
----py封装文档集类
--数据/放置所使用的数据文件
----训练/训练数据集
----开发/测试数据集
----使用CRF+的CRF/CRF注释配置文件+
----外部资源/外部资源数据
------freq Wikipedia计算的英语文章词频
------IDF Wikipedia计算的反向文档频率
------IEEE文本分类表
------Glove.6b.50d.txt手套训练字向量数据
本系列文章将不介绍具体的代码细节,如果需要运行结果,代码应该很容易理解
本文文章介绍了关键词提取系统的数据集和实现代码结构。接下来,将介绍特征设计和候选词生成