c 抓取网页数据(用rvest简单提取文本内容(图)拆分(组图))

优采云 发布时间: 2021-10-18 16:25

  c 抓取网页数据(用rvest简单提取文本内容(图)拆分(组图))

  一篇短文,涵盖了数据采集、数据清洗、数据展示的*敏*感*词*。数据主要展示了2016年中国前100个地级市的GDP、增长率、区域分布密度图三个维度。

  library(plyr)

library(rvest)

library(stringr)

library("data.table")

library(dplyr)

  随便找一篇微信短文,复制网址链接,直接在浏览器打开

  / s的?__ BIZ = MzI1ODM5NTQ1Mw ==&中期= 2247484083&IDX = 1&SN = ba4f4b10af3e4d6ed45f4d04edc30980&chksm = ea099ee1dd7e17f717afffdb3a3ff82c6e4e6bd5251601f0gc6e4e6ed45f4d04edc30980&chksm = ea099ee1dd7e17f717afffdb3a3ff82c6e4e6bd5251601f4c6e4e6d5251601f4f0c6e4e6d5d5m1f0g8f0c6e4e6d5fb8rqf0c6e4e6d5d5b8cd4f0c6e1

  使用rvest简单提取文本内容

  web%html_text()

  

  网页抓取阶段完成后,接下来将进入数据清洗阶段:

  #------------------------------------------------- -------------------------------------------------- ---

  仔细观察文本向量,我们可以发现我们需要的城市数据都是以数字开头(1到3位不等),第七行也是以一个数据字开头(2017年1月20日),使用正则表示为准确匹配,将所有标点符号(记住中文标点符号)替换为逗号(英文),可以作为以后进行列拆分的依据(也可以自定义拆分符号)

<p>a

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线