采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)

优采云 发布时间: 2022-01-06 22:10

  采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)

  R语言问题讨论交流,欢迎关注我的新浪微博:珍妮爱学习

  文本挖掘应用的博客将分为4个部分来讨论和完成。本文将完成第1部分的详细项目:

  用户词典批量安装,自定义分词词库,自建分词包安装,jiebaR分词使用词云绘制(wordcloud2详细使用见:Mac版R语言(四)使用wordcloud2绘制词云和单击以打开链接)k-means 聚类

  运行环境平台:x86_64-apple-darwin13.4.0(64位)、MacOS Sierra 10.12.3、R3.3.2(2016-10-31),所有涉及的包在2017-6月更新下载。

  所有代码都运行完毕,结果如图所示。如果您有任何问题,请留言讨论。

  1. 常用的分词包

  1.1 R 提供的文本挖掘包:

  1.2 其他常用的中文分词系统:

  2. 创建用户字典

  2.1 同义词下载

  作为R平台上最好的中文分词工具,jiebaR有自己的词库和停词库,但是对于不同行业的研究者来说,内置的词库并不能满足所有的研究需求。因此,用户需要自行安装行业专用词库。具体词库可以从搜狗词典下载安装:点击打开链接

  

  2. 2 单字典导入

  2.2.1 零码转换分词词库

  如果只需要导入单个词典,推荐使用在线版的词库转换工具,同样来自jiebaR作者秦文峰,点击链接在线转换:

  点击打开链接

  

  2.2.2 代码导入词典

  cidian包下载安装方法如下图: 2.3 批量词库导入。

  新建一个Rproject工程文件,在搜狗词典库所在的文件夹下新建工程工程文件。

  结果如下:

  

  在得到的文件中,将转换后的搜狗词典的后缀名改为user.dict.utf8,并替换原文件,将搜狗词典转换为默认的用户词典。

  2.3 批量词库导入

  需要分词的文档可能融合了很多学科。因此,仅仅一个词库是无法分离出许多不同行业的特殊词的。在这种情况下,需要批量导入多学科词库对文档进行切分。

  批量导入搜狗词库需要cidian包。查看cidian在R上的文档信息,包cidian也是来自jiebaR的作者秦文峰。

  11、13、 第14行注意:加载cidian时,还需要加载五个包:Rcpp和RcppProgress、stringi、pbapply和jiebaR。

  由于字典是在github上发布的,所以在Mac环境下需要使用devtools包安装下载(详情后面介绍),在windows环境下需要安装Rtools开发工具安装cidian包。

  

  jiebaR中安装批量导入词库包

  打开R,根据文档,执行如下代码:

  结果截图

  

  在整个代码运行过程中,请确保每个文件的路径正确,否则可能会产生一些空数据集。

  

  代码运行后,.txt。会在词库所在的文件夹中生成.scel词库对应的文件格式,如下图:

  

  将所有生成的 .txt 文件合并为一个文件

  这时候就得到了一个.txt格式的所有词库的文件。R中的环境显示,整理后的词库收录约30万个专业词汇,21.6M:

  

  使用unique()函数去掉重复词语,还剩28万条词:

  

  最后,编写去重的词库:

  write.table(dict1,file = "use.dict.utf8",quote = F,row.names = F,col.names = F,fileEncoding = "UTF-8")

  在Rproject文件夹中得到如下结果:

  

  按照2.2.2中介绍的替换词典的方法,将生成的词典替换为jiebaR的默认用户词典。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线