网页表格抓取(PowerQuery中还有一个函数,如何找到七月份数据的数据)

优采云 发布时间: 2022-02-08 09:03

  网页表格抓取(PowerQuery中还有一个函数,如何找到七月份数据的数据)

  #学Wave2020#

  随着时间的推移,大家对新冠病毒的关注度有所下降,可能是因为天气炎热,大街上不戴口罩的人越来越多。但是看数据还是挺吓人的

  

  美国有 318 万,巴西有 180 万,印度有 82 万。

  大家还是要注意个人防护,保证自己和家人的健康才是最重要的。

  我们之前做过新冠的数据采集,有很多文章文章,现在这篇文章和上一篇有些相关,github数据采集

  

  GitHub网站访问总是失败

  

  用 raw网站 抓取是最方便的,只是 CSV 格式。但是,有好有坏,我们几天都无法访问。我们还是使用web方式来爬取。

  直接用web爬取很简单,就一句话:

  

  但也有新的问题。现在已经是七月了,但预览只能在五月。实际加载后的结果也是五月。在浏览器中预览时,还可以看到七月。未捕获数据。

  问题应该出在函数Web.Contents,不知道为什么,表被自动截断了。我们在查看文本格式和csv格式的网页内容,发现可以找到7月份的数据,但是需要从文本格式中提取新冠病毒的数据,工作量有点重,整个过程的通用性会降低。

  Power Query 中还有一个功能,我们将尝试 Web.BrowserContents 功能:

  

  果然,这个函数可以找到7月份的数据,我们只要把Web.Contents函数换成Web.BrowserContents函数就可以了,我们试试:

  定义一个这样的函数,然后抓取:

  

  行

  这种数据必须进行转换、反向旋转,并且必须将日期格式更改为我们习惯的格式:

  

  更改数据格式并将其加载到 Power BI Desktop

  这是一个时间序列的数据,我们制作动态条形图:Animated Bar Chart Race

  

  快速浏览一下过去六个月新冠病毒确诊病例数据的变化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线