怎样抓取网页数据(用rvest简单提取文本内容(图)拆分(组图))

优采云 发布时间: 2022-04-17 17:22

  怎样抓取网页数据(用rvest简单提取文本内容(图)拆分(组图))

  一篇短文,涵盖了数据采集、数据清洗、数据呈现等全过程,数据主要展示了2016年我国地级市百强城市GDP、增长率、区域分布密度图三个维度.

  library(plyr)

library(rvest)

library(stringr)

library("data.table")

library(dplyr)

  随便找个微信短信,复制网址链接直接在浏览器打开

  /S? __ BIZ = MzI1ODM5NTQ1Mw ==&中期= 2247484083&IDX = 1&SN = ba4f4b10af3e4d6ed45f4d04edc30980&chksm = ea099ee1dd7e17f717afffdb3a3ff82c6e4e6bd351251601f0968c792b7e7cb5cdf084fb86a8&mpshare = 1&场景= 23&srcid = 02039mlTmLqMxQEnb4CnUrK3#RD“

  使用 rvest 简单提取文本内容

  web%html_text()

  

  网页爬取阶段完成后,以下过渡到数据清洗阶段:

  #------------------------------------------------ -------------------------------------------------- ---

  如果仔细观察文本向量,可以发现我们需要的城市数据以数字开头(1到3位不等),第七行也是以数据字开头(January 20, 2017),使用正则表达式进行精确匹配,并将所有标点符号(记住中文标点)替换为逗号(英文),方便作为拆分依据(也可以自定义拆分符号)

<p>a

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线