集搜客网页抓取软件(微博数据挖掘研究分析-“论文主题”字段数据数据进行共享(组图))
优采云 发布时间: 2021-12-17 01:30集搜客网页抓取软件(微博数据挖掘研究分析-“论文主题”字段数据数据进行共享(组图))
ROST作为一款优秀的内容挖掘工具,提供了一系列可以在自然语言处理中快速使用的功能,其中“分词”功能也被广泛使用。在对文本进行分词处理的过程中,由于同义词库是固定的,无论使用哪种分词软件,都有可能在分词结果中没有出现你想要的词,即使该词确实在存在于文本。下面我们主要讲解分词的操作过程和添加自定义词的过程。
我通过实际的应用场景来解释一下。在我之前的一篇文章《毕业论文写什么-微博数据挖掘相关论文》中有一篇分析,专门针对微博数据挖掘相关论文。对标题进行分词和统计分析,使用分词处理功能。本文将以该数据集为例进行讲解。
数据集下载:知网微博数据挖掘研究与分析——“论文课题”现场数据
数据是共享的,有兴趣的可以自己试试。
一.使用ROST进行分词
在我们常见的研究场景中,词频统计基本都是在分词之后进行的,所以我们来考察一下“分词-词频统计”结合在一起的操作过程。从下面的操作流程可以看出,ROST将这两个流程明确分开,需要两个步骤。
1.使用ROST进行分词
ROST不支持excel文件的分词,所以先把刚才的实验数据复制到txt文件中,如下。
选择“功能分析”>“分词”,导入刚刚准备好的txt文件,点击“确定”。
分词完成后,ROST会自动打开分词结果。文件保存在分词文件所在的路径下,可以看到结果已经被分词了。
2.使用ROST进行词频分析
接下来我们需要对分词后的文档进行词频分析,选择“功能分析”>“词频分析(中文)”,将刚刚分词后的txt文件导入,点击“确定”。
当然,您可以在点击“确定”之前进行以下设置:
词频分析完成后,结果仍会默认显示
3. 使用ROST添加自定义词
浏览了一会(或者CRTL+F叫出搜索站搜索),发现没有“社交网络分析”、“社交网络”、“数据挖掘”这样理想的分词结果。
回到文章开头提到的“词库”,因为ROST在“词库”中不收录这些词,所以它的分词结果和词频统计都不收录这些词。如果想让ROST在分词词中收录这些词,就需要补充这个“词库”,这样我们就可以自定义词组了。
ROST 的自定义加词过程有点复杂。研究过自然语言处理(NLP)技术的读者可以看到,ROST添加的自定义词被放置在一个特殊的词汇表中,将用于后续的分词和词频统计。中间。
首先我们先通过ROST自定义短语。要添加ROST的“词库”,在“user”文件夹下找到“user.txt”文件,添加后面要添加的词。
这里我加了“社交网络”、“社交网络分析”和“数据挖掘”三个词。
然后重复刚才的“分词>词频统计”步骤,可以看到最后的词频统计结果中出现了三个新增的词,说明ROST已经识别到词库更新。
ROST对这三个词的词频统计结果为:
二.使用极手客进行分词处理
1.使用吉首客进行分词和词频统计
然后使用吉首客分词软件进行分词。前面说过,在研究了一些优秀的分词软件之后,我们希望开发一款简单易用的软件,即使计算机基础薄弱也可以进行分词和统计分析。所以分词-词频统计一步到位,你甚至可以在手机上用微信小程序采集-分词作业帮助完成这个任务。
进入分词软件后,首先导入实验数据。这里以一个excel格式的文件为例。吉首分词软件支持Excel、PDF、Word、txt,接收到的文件可以通过微信小程序直接导入吉搜客分词。在系统中。
导入后会生成一个分词任务,可以在“我的任务”中看到。如果进入“过滤词”页面,可以看到分词生成的词已经按照词频排序。
此时,您可以直接进入以下三个页面(选词结果、标记结果、分词结果)中的任何一个,导出分词结果。导出的结果是一个 ZIP 文件,最多收录四个表,有
可以看出,一次导入操作就可以导出词频表。
吉首客分词打标工具的特点从第二个网页“筛选词”开始。我们知道,在文章的一篇文章中,可能存在大量没有分析价值的高频词,因此吉首客分词标记工具允许用户手动过滤词,只保留与该词相关的词。研究课题。过滤词按词频排序,因为词频越低,其分析值越低(不一定正确,根据流行的搜索算法,稀有词收录的信息量可能更大),词频排名 TOP前面的就是用户需要分析的对象,所以过滤掉前面的,就不用看后面的了。
来到“选词结果”的第三页,我们手动选择的话题相关词有哪些,对应的例句是什么。
如果看“打分结果”和“分词效果”这两个页面,就更有特色了。列出一个句子中的所有特征词。如果进行导出,可以导出句子和词汇的对应矩阵,可以用于向量空间计算。
2.用极手客添加自定义词
在选词结果、标记结果和分词效果页面,您可以手动添加单词。合集搜索器添加的词是添加词,不管系统的词库,也就是将缺失的词添加到分词结果中,所以,添加就行,添加后立即生效,会自动匹配句子收录的词,形成分词效果的对应关系。
例如,发现“社交网络”、“社交网络分析”、“数据挖掘”三个词没有收录在合集的分词结果中。
我们来看看这三个词的词频统计。他们是:
3. 词频统计对比
相比之下,ROST和吉首客的词频统计结果是不同的。
我们来验证一下。
相比之下,吉首客分词软件的分词准确率还是比较高的
结尾