excel抓取网页动态数据(一下用Excel获取疫情数据的简单技能,你知道吗? )
优采云 发布时间: 2022-03-04 09:06excel抓取网页动态数据(一下用Excel获取疫情数据的简单技能,你知道吗?
)
以下内容转载至数据管理微信公众号(部分删减)
原文链接:
大家好,最近收到一些朋友的消息,说我在做数据分析工作,想关注一下我所在地区的疫情数据。他们问我如何轻松获得疫情数据。本文将为您介绍。使用 Excel 获取流行病数据的简单技巧。
先搞清楚疫情数据的来源在哪里?
关注疫情数据。官方发布渠道为国家卫健委和省、市卫健委发布的信息。因此,我们应该首先考虑是否可以从卫健委的网站获得数据?
比如下图是国家卫健委官网发布的页面:
如果要使用工具获取上面页面的数据,需要抓取上面的文字,然后分析文字关键词,提取关键数据,然后整理成结构化数据,才可以使用关于数据分析。同样,如果要获取某省的疫情数据,也可以对省卫健委官网公布的数据进行提取整理。例如,以下是江西省卫健委公布的情况信息:
对于大多数人来说,这样整理数据真的很费时费力,技能可能跟不上,但如果我们想自己获取数据,首先我们真的考虑到这一点,毕竟是卫健委的第一手数据。 ,质量也可以保证。但由于技术难度比较大,本文不介绍这种方法。
如果我们不具备直接获取官方数据的条件,也可以获取其他人整理的数据,比如腾讯、阿里、新浪、丁香园、网易、百度等,都有对应的疫情数据页面,并且国家、省、市三级数据已经整理好,我们可以想办法从他们的页面中获取你想要的数据。
让我们从简单的数据获取方法开始:
我们打开腾讯新闻的界面( ),里面有全国数据、省数据、市数据等,很详细。 (可以看他们的数据来源,也是根据国家卫健委公布的信息写的)
网页地址找到了,接下来用什么工具获取呢?
工具实际上很灵活,这取决于您熟悉哪一种,Python 可以、VBA 可以或任何其他编程语言。但是我们今天使用的工具非常简单。由Excel的Power Query函数直接实现(Excel 2016及以上版本默认内置该函数)。下面介绍操作步骤:
Step1:找到数据的真实地址。刚才我们只是得到了页面的地址,但是这个地址中并没有我们想要的数据。怎么找?
这需要您对数据传输有一定的网站知识。感兴趣的朋友可以详细了解百度“Chrome 抓包分析”。我将直接提供我在这里获得的2个地址供您参考:
省级数据:湖北
城市数据:湖北&city=武汉
Step2:使用PQ获取数据。如果你没有看到如下界面,则证明你没有PQ的功能。 (没有这个功能也别着急,文末提供了直接下载数据的方法)
PoweQuery 下载链接:
点击确定后,进入如下界面,事情就变得简单了,直接手动转换数据即可。
PQ的具体操作请参考以下链接:
Step3:最后一步是“关闭并上传”到新工作表。