抓取动态网页( 如何用PowerBI批量爬取网页数据?PowerBI猫眼数据告诉你)
优采云 发布时间: 2022-01-20 04:11抓取动态网页(
如何用PowerBI批量爬取网页数据?PowerBI猫眼数据告诉你)
关于Power BI从网页中提取数据的技术,部分技术在之前的文章中已经分享过,大家可以看看这些内容:
如何使用PowerBI批量抓取网页数据?
Power BI 捕捉猫眼数据告诉你哪部电影更受欢迎?
提取网页上可见的规范化数据很容易,但是网页中可以再次点击的链接呢?
其实也很简单。本文以豆瓣阅读TOP250为例:
在这个网页中,不仅显示了书名、评分、作者等信息的列表,还可以点击封面或书名进入该书的详情页面。让我们看看如何提取这个链接。
在 PowerBI Desktop 中,选择 Get data with web,你会看到这个导航器,
在表格视图中看不到可以提取的数据,没关系,可以点击左下角的“使用示例添加表格”,然后就可以看到这个网页了,
在这里,只要你手动输入前两条信息,PowerBI就会确定你要提取的字段,并自动在网页中添加剩余的相似数据,比如输入前两本书的标题,
同理,还可以提取收视率、作者、出版商等信息。
URL 在此页面上不可见。您不能直接输入前两个 URL。在这种情况下,没有例子。需要手动一一复制粘贴吗?
当然不是,这里虽然看不到,但是可以打开链接,不知道网址是什么吗?
依次打开前两个链接,将 URL 复制并粘贴到示例的前两行中,
这样就得到了链接,是不是很简单。
上述步骤仅提取一页上的 25 条信息。也可以按照前面文章中介绍的方法,使用Power Query自定义函数批量提取top 250图书信息。
简单处理后,即可在PowerBI Desktop中使用。记得在点击链接前将链接的数据类型设置为“Web URL”。
PowerBI获取网页数据的技巧仅供学习交流,不得用于不正当目的。
更令人兴奋的:
学习PowerBI请采集:DAX写作格式指南
Power BI应用技巧:简单两步即可实现红绿灯效果