抓取网页新闻(之前关键句筛选单句切分之后对句子的集合做一下筛选)
优采云 发布时间: 2021-10-17 08:27抓取网页新闻(之前关键句筛选单句切分之后对句子的集合做一下筛选)
之前用R做过一些文本处理工作,主要是对新闻进行分类,提取关键词之类的。您可以通过 jiebaR 包和自定义词典轻松完成大部分工作。分类是对每个项目进行分类。类别的特征和运行一个分类模型可以得到比较满意的结果。只是自动生成summary还没有找到好的解决方案,也没有找到R中现成的工具包。因为写代码的能力也比较上口,参考java和python中的代码,还是不可能写出像样的程序。所以最后的解决办法就是把文章的前几句剪下来作为总结,效果可想而知……
随着对R和python越来越熟悉,最近看了一篇文章,详细讲解了textRank算法在python中的实现文章(《还在被题主欺骗吗?是时候试试了文本摘要技术(附)源代码)》),所以我尝试将其更改为R代码。经过一番“辛苦”的处理,终于可以实现R中自动提取摘要的功能。
textRank算法的原理就不过多介绍了(想了解的可以参考这里),直接说代码:
1. 加载包
<p>if(!"jiebaR" %in% (.packages())) library(jiebaR)
if(!"dplyr" %in% (.packages())) library(dplyr)
keys