采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)

优采云发布时间: 2022-01-06 22:10

　　R语言问题讨论交流，欢迎关注我的新浪微博：珍妮爱学习

　　文本挖掘应用的博客将分为4个部分来讨论和完成。本文将完成第1部分的详细项目：

　　用户词典批量安装，自定义分词词库，自建分词包安装，jiebaR分词使用词云绘制（wordcloud2详细使用见：Mac版R语言（四）使用wordcloud2绘制词云和单击以打开链接）k-means 聚类

　　运行环境平台：x86_64-apple-darwin13.4.0（64位）、MacOS Sierra 10.12.3、R3.3.2（2016-10-31)，所有涉及的包在2017-6月更新下载。

　　所有代码都运行完毕，结果如图所示。如果您有任何问题，请留言讨论。

　　1. 常用的分词包

　　1.1 R 提供的文本挖掘包：

　　1.2 其他常用的中文分词系统：

　　2. 创建用户字典

　　2.1 同义词下载

　　作为R平台上最好的中文分词工具，jiebaR有自己的词库和停词库，但是对于不同行业的研究者来说，内置的词库并不能满足所有的研究需求。因此，用户需要自行安装行业专用词库。具体词库可以从搜狗词典下载安装：点击打开链接

　　2. 2 单字典导入

　　2.2.1 零码转换分词词库

　　如果只需要导入单个词典，推荐使用在线版的词库转换工具，同样来自jiebaR作者秦文峰，点击链接在线转换：

　　点击打开链接

　　2.2.2 代码导入词典

　　cidian包下载安装方法如下图： 2.3 批量词库导入。

　　新建一个Rproject工程文件，在搜狗词典库所在的文件夹下新建工程工程文件。

　　结果如下：

　　在得到的文件中，将转换后的搜狗词典的后缀名改为user.dict.utf8，并替换原文件，将搜狗词典转换为默认的用户词典。

　　2.3 批量词库导入

　　需要分词的文档可能融合了很多学科。因此，仅仅一个词库是无法分离出许多不同行业的特殊词的。在这种情况下，需要批量导入多学科词库对文档进行切分。

　　批量导入搜狗词库需要cidian包。查看cidian在R上的文档信息，包cidian也是来自jiebaR的作者秦文峰。

　　11、13、第14行注意：加载cidian时，还需要加载五个包：Rcpp和RcppProgress、stringi、pbapply和jiebaR。

　　由于字典是在github上发布的，所以在Mac环境下需要使用devtools包安装下载（详情后面介绍），在windows环境下需要安装Rtools开发工具安装cidian包。

　　jiebaR中安装批量导入词库包

　　打开R，根据文档，执行如下代码：

　　结果截图

　　在整个代码运行过程中，请确保每个文件的路径正确，否则可能会产生一些空数据集。

　　代码运行后，.txt。会在词库所在的文件夹中生成.scel词库对应的文件格式，如下图：

　　将所有生成的 .txt 文件合并为一个文件

　　这时候就得到了一个.txt格式的所有词库的文件。R中的环境显示，整理后的词库收录约30万个专业词汇，21.6M：

　　使用unique()函数去掉重复词语，还剩28万条词：

　　最后，编写去重的词库：

　　write.table(dict1,file = "use.dict.utf8",quote = F,row.names = F,col.names = F,fileEncoding = "UTF-8")

　　在Rproject文件夹中得到如下结果：

　　按照2.2.2中介绍的替换词典的方法，将生成的词典替换为jiebaR的默认用户词典。

0

2022-01-06

采集内容插入词库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)

0 个评论

发起人

AI时代内容工厂

采集内容插入词库(【R语言问题讨论】1.分词常用packages1.1R提供的文本挖掘)

0 个评论

发起人

相关问题