抓取网页新闻(之前关键句筛选单句切分之后对句子的集合做一下筛选)

优采云发布时间: 2021-10-17 08:27

　　之前用R做过一些文本处理工作，主要是对新闻进行分类，提取关键词之类的。您可以通过 jiebaR 包和自定义词典轻松完成大部分工作。分类是对每个项目进行分类。类别的特征和运行一个分类模型可以得到比较满意的结果。只是自动生成summary还没有找到好的解决方案，也没有找到R中现成的工具包。因为写代码的能力也比较上口，参考java和python中的代码，还是不可能写出像样的程序。所以最后的解决办法就是把文章的前几句剪下来作为总结，效果可想而知……

　　随着对R和python越来越熟悉，最近看了一篇文章，详细讲解了textRank算法在python中的实现文章（《还在被题主欺骗吗？是时候试试了文本摘要技术（附）源代码）》），所以我尝试将其更改为R代码。经过一番“辛苦”的处理，终于可以实现R中自动提取摘要的功能。

　　textRank算法的原理就不过多介绍了（想了解的可以参考这里），直接说代码：

　　1. 加载包

<p>if(!"jiebaR" %in% (.packages())) library(jiebaR)

if(!"dplyr" %in% (.packages())) library(dplyr)

keys

0

2021-10-17

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(之前关键句筛选单句切分之后对句子的集合做一下筛选)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(之前关键句筛选单句切分之后对句子的集合做一下筛选)

0 个评论

发起人

相关问题