PowerBI 零代码智能网抓中国电影大数据让人惊叹
优采云 发布时间: 2022-06-19 19:42PowerBI 零代码智能网抓中国电影大数据让人惊叹
星巴克一小时能干什么?能零代码智能网抓中国电影大数据,你信吗?
有个朋友入职了电影行业,跟随一导演,导演找人投了很多钱,要求这朋友帮他分析下最近几年中国电影市场整体行情并要求分析出应该拍什么片子能赚钱。
导演:我们有投资了,你想想办法看看分析中国这几年拍什么片子火,赚钱。
朋友:什么时候要?
导演:把中国电影都分析要多久?
朋友:中国电影好多啊,那一个月如何?
导演:好的。
朋友去星巴克买了一杯星冰乐坐了一个小时,给我打了电话,问去不去旅游,我说没时间,他说他有一个月的假期。我好羡慕他…
概述
以上纯属胡扯,如有雷同,纯属巧合。但这个场景,不得不让我们更惊讶于PowerBI给企业和个人可能带来的生产力。我的朋友在星巴克做了这些事,我们来拆解一番。
找到行业数据
百度搜索:中国电影票房,如下:
思路来了,是不是可以把所有的电影数据都抓下来来分析行业呢。
使用PowerBI从WEB获取数据
地址:
从2018年5月升级后的PowerBI具有一种可以智能解析网页的能力,它可以根据用户的输入自动去判断可能的规律,并根据这个规律去从网页获取数据,实现抓取网页的效果。
这可以帮助我们【使用示例提取表】,如下:
太神奇了!太震惊了!太逆天了!你输入两个电影名字,它帮你全部找到,它怎么猜出来的呢~~ 类似地,就可以提取所有需要的数据,如下:
太不可思议了,没有任何网抓,只不过是写了两个名字,然后PowerBI就猜出来你要网页上的什么数据了,确认。
抓取某年的电影数据
可以在PowerBI中对这个数据进行一定处理,变得符合我们的需要。但一个关键是:做参数化。这里把年份变成参数,如下:
我们管这时候的PowerQuery中的数据起名:WebData,并叫做*敏*感*词*数据,我们将*敏*感*词*数据和参数放在一起,来抽取函数:
生成如下:
此时我们生成了一个功能函数叫:fn获取某年电影数据。我们只需要向其中传递一个参数,就会自动从网络中抓取某年的电影数据。
抓取历年的电影数据
我们想办法获取历年的数据,先做个参数和*敏*感*词*:
用 开始年份 和 结束年份 制作出 历史年份电影数据 作为数据*敏*感*词*,如下:
现在只需要考虑给这个数据*敏*感*词*的每行都按上面已经做好的 fn获取某年电影数据 来计算一次就好,使用函数增加自定义列,如下:
于是就开始等待了,因为每一行都会作为fn获取某年电影数据的参数来获取网络数据,这就需要等待一段数据抓取的时间了,喝了几口星冰乐,数据也就好了,如下:
会发现,这整体是一个表格,在表格的第二列的每个单元格里又是一个表格,这个表格就是历年的电影票房数据了。于是将它们整体扩展合并,如下:
最后得到结果:
这正是我们要的东西,喝一大口星冰乐,爽。注意:我们立即回忆这里是将 开始年份,结束年份和*敏*感*词*数据 生成的历史数据,所以,要再来创建个函数,如下:
小结一下:
于是,用这个管道函数重新运行来获得电影作为数据模型,如下:
PowerQuery 中的 ETL
如果说PowerQuery完成了类似ETL(获取数据,转换数据以及加载数据)的工作,那可以视为我们构建了ET(获取和转换)的管道,然后准备了数据模型表,再加载进入PowerBI数据模型。
PowerBI 数据分析
准备好了数据模型,只有一个表电影,那么电影的文本属性字段(如:类型,国家,名称)就是观察分析它的角度,而它的数值字段(如:票房,票价,上座量)就是观察分析的核心业务指标。再来一大口星冰乐,思路非常清晰,点击几个PowerBI的视觉对象即可,然后使用PowerBI交叉筛选,如下:
分析如下:
既然心里有了数,就不怕了,正好星巴克的星冰乐喝完了。
总结
这里虚拟了一个不存在的场景,也略微显得简单,但却不失一种感觉,这位朋友只用了一杯星巴克的工夫,仅仅是点击鼠标,里面没有任何写代码的动作,就基本对老板交代的理解中国电影市场整体有了把握,所有内容不到一个小时完成,这得益于三件事:
注意,正确地学习和学习本身一样重要。本文真正的重点在于揭示:
零代码实现智能网络数据抓取抛砖引玉,让人们重新感知对PowerBI正统设计思想认知,包括:
本案例纯点击实现网抓以及合并查询,最终却都是为了去生成查询管道,再次将PowerQuery到底该如何用提出了新的思考。
——
以上内容有很多浮夸的成分,也不是大数据,但请看到完全正面的东西,PowerBI将帮助很多人和企业有机会从 零基础零成本零风险 开始做数字化探索和转型,正如微软CEO所说:刷新。
我在 Excel120 等您加入,一起刷新。