网页表格抓取(小白表示R语言太有用了!(附案例分析))

优采云 发布时间: 2021-10-12 07:22

  网页表格抓取(小白表示R语言太有用了!(附案例分析))

  今天,R语言对我帮助很大。几行简单的代码几乎为我节省了一天的时间。小白说R语言好用!

  问题如下:

  我想获取网页上表格中的数据,网页表格如下图

  

  但是,这张表无法复制和粘贴,这是非常作弊的。Ctrl+C 和 Ctrl+V 之后,只有 URL 出来了。估计是禁用了复制粘贴功能。而且一一敲的话,工作量会很大,估计最后会瞎的……

  整个数据量如下,/aspx/1/NewData/Stat_Data.aspx?state=1&next=2¤cy=usd&year=2016

  

  从2014年到2017年有四年,每年有7个项目,每个项目分12个月,共336张表,有的表内容特别大,数量特别多,如下图:

  

  按照这个工作量,如果你一一数数,输入Excel,一天不吃不喝可能做不完。

  幸运的是,我最近才开始使用 R ......

  听说R语言也有爬取数据的功能,于是在网上简单搜索了一些帖子,使用XML包,成功将这个网页中的336表保存为Excel格式。

  代码显示如下:

  >install.packages("XML")#安装 XML 包

  >library(XML) #加载XML包

  >/aspx/1/NewData/Stat_Class.aspx?state=1&t=2&guid=7146" #写表所在的URL

  >tblsR语言网页数据抓取示例

  >流行

  >write.csv(pop,file="d:/pop.csv") #将pop存储为D盘的CSV文件

  这样就快速实现了网页中的数据爬取。第一次用R语言工作,往往很有成就感~不过毕竟有336个网页,最后还要跑336次代码,工作量也是肯定。童鞋们,如果有更好更快的导出数据的方法,欢迎提供~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线