采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)
优采云 发布时间: 2022-01-06 22:10采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)
R语言问题讨论交流,欢迎关注我的新浪微博:珍妮爱学习
文本挖掘应用的博客将分为4个部分来讨论和完成。本文将完成第1部分的详细项目:
用户词典批量安装,自定义分词词库,自建分词包安装,jiebaR分词使用词云绘制(wordcloud2详细使用见:Mac版R语言(四)使用wordcloud2绘制词云和单击以打开链接)k-means 聚类
运行环境平台:x86_64-apple-darwin13.4.0(64位)、MacOS Sierra 10.12.3、R3.3.2(2016-10-31),所有涉及的包在2017-6月更新下载。
所有代码都运行完毕,结果如图所示。如果您有任何问题,请留言讨论。
1. 常用的分词包
1.1 R 提供的文本挖掘包:
1.2 其他常用的中文分词系统:
2. 创建用户字典
2.1 同义词下载
作为R平台上最好的中文分词工具,jiebaR有自己的词库和停词库,但是对于不同行业的研究者来说,内置的词库并不能满足所有的研究需求。因此,用户需要自行安装行业专用词库。具体词库可以从搜狗词典下载安装:点击打开链接
2. 2 单字典导入
2.2.1 零码转换分词词库
如果只需要导入单个词典,推荐使用在线版的词库转换工具,同样来自jiebaR作者秦文峰,点击链接在线转换:
点击打开链接
2.2.2 代码导入词典
cidian包下载安装方法如下图: 2.3 批量词库导入。
新建一个Rproject工程文件,在搜狗词典库所在的文件夹下新建工程工程文件。
结果如下:
在得到的文件中,将转换后的搜狗词典的后缀名改为user.dict.utf8,并替换原文件,将搜狗词典转换为默认的用户词典。
2.3 批量词库导入
需要分词的文档可能融合了很多学科。因此,仅仅一个词库是无法分离出许多不同行业的特殊词的。在这种情况下,需要批量导入多学科词库对文档进行切分。
批量导入搜狗词库需要cidian包。查看cidian在R上的文档信息,包cidian也是来自jiebaR的作者秦文峰。
11、13、 第14行注意:加载cidian时,还需要加载五个包:Rcpp和RcppProgress、stringi、pbapply和jiebaR。
由于字典是在github上发布的,所以在Mac环境下需要使用devtools包安装下载(详情后面介绍),在windows环境下需要安装Rtools开发工具安装cidian包。
jiebaR中安装批量导入词库包
打开R,根据文档,执行如下代码:
结果截图
在整个代码运行过程中,请确保每个文件的路径正确,否则可能会产生一些空数据集。
代码运行后,.txt。会在词库所在的文件夹中生成.scel词库对应的文件格式,如下图:
将所有生成的 .txt 文件合并为一个文件
这时候就得到了一个.txt格式的所有词库的文件。R中的环境显示,整理后的词库收录约30万个专业词汇,21.6M:
使用unique()函数去掉重复词语,还剩28万条词:
最后,编写去重的词库:
write.table(dict1,file = "use.dict.utf8",quote = F,row.names = F,col.names = F,fileEncoding = "UTF-8")
在Rproject文件夹中得到如下结果:
按照2.2.2中介绍的替换词典的方法,将生成的词典替换为jiebaR的默认用户词典。