网页表格抓取(PowerQuery中还有一个函数,如何找到七月份数据的数据)
优采云 发布时间: 2022-02-08 09:03网页表格抓取(PowerQuery中还有一个函数,如何找到七月份数据的数据)
#学Wave2020#
随着时间的推移,大家对新冠病毒的关注度有所下降,可能是因为天气炎热,大街上不戴口罩的人越来越多。但是看数据还是挺吓人的
美国有 318 万,巴西有 180 万,印度有 82 万。
大家还是要注意个人防护,保证自己和家人的健康才是最重要的。
我们之前做过新冠的数据采集,有很多文章文章,现在这篇文章和上一篇有些相关,github数据采集
GitHub网站访问总是失败
用 raw网站 抓取是最方便的,只是 CSV 格式。但是,有好有坏,我们几天都无法访问。我们还是使用web方式来爬取。
直接用web爬取很简单,就一句话:
但也有新的问题。现在已经是七月了,但预览只能在五月。实际加载后的结果也是五月。在浏览器中预览时,还可以看到七月。未捕获数据。
问题应该出在函数Web.Contents,不知道为什么,表被自动截断了。我们在查看文本格式和csv格式的网页内容,发现可以找到7月份的数据,但是需要从文本格式中提取新冠病毒的数据,工作量有点重,整个过程的通用性会降低。
Power Query 中还有一个功能,我们将尝试 Web.BrowserContents 功能:
果然,这个函数可以找到7月份的数据,我们只要把Web.Contents函数换成Web.BrowserContents函数就可以了,我们试试:
定义一个这样的函数,然后抓取:
行
这种数据必须进行转换、反向旋转,并且必须将日期格式更改为我们习惯的格式:
更改数据格式并将其加载到 Power BI Desktop
这是一个时间序列的数据,我们制作动态条形图:Animated Bar Chart Race
快速浏览一下过去六个月新冠病毒确诊病例数据的变化。