网页数据抓取软件(从Web获取数据您可以在PowerBI中删除所有额外步骤)
优采云 发布时间: 2021-11-11 12:05网页数据抓取软件(从Web获取数据您可以在PowerBI中删除所有额外步骤)
PowerQuery 可以连接到网页并从那里获取数据。但是,从网页获取数据的默认方法不会将图像提取到报告中。在本文中,我将向您展示一种方法,您可以使用该方法从网页中获取图像并将其转换为 Power BI 中的可视化。
样本来源
在这个例子中,我使用豆瓣电影排名作为来源。你可以在这里访问它:
您可以在下面看到页面的外观。在此示例中,我们想要做的是将这些图像放入我们的 Power BI 报表中。
从网络获取数据
可以在 Power BI 中使用从 Web 获取数据。
输入网址,点击确认,我们可以看到如下导航。我们选择“编辑”进入我们的 Power Query 界面。
编辑查询
我们现在需要做的第一件事是删除所有额外的步骤。只剩下从这个页面读取数据的第一步了。将第一步的步骤替换为以下代码:
"= Web.BrowserContents("")"
我们可以得到整个HTML页面的信息。
然后将其转换为表格:
下一步就是我们的重点,也就是如何搜索图片的HTML代码。
找到页面中图片的HTML代码
有多种工具和方法可用于查找图像的 HTML 代码。我经常用谷歌浏览器找,按F12打开我们的调试器,然后用元素选择器选择我们的图片,查看我们网页的结构信息。
使用 HTML 代码中断数据
上一步我们得到了网页的结构信息,接下来我们可以在Power Query中应用一些转换来实现这个功能。
我的第一步是拆分所有电影的信息。直接使用通过分隔符拆分列的功能,它将作为我们的分隔符。拆分位置选项设置为每次出现分隔符时,拆分为选项设置为行。
这将为每部电影提供一行数据,除了应该删除的第一行。您可以通过删除前几行,然后将第一行放在第一行中来删除它。
现在让我们输入表格的图像部分。该图像位于“
所以我们需要做的就是提取分隔符之间的文本:
在这里,我们获取表中所有图像的 URL:
您可以使用相同的方法获取这些电影的其他部分,例如片名、评分、票房、演员等信息。由于操作的重复性,我就不一一解释了,直接看我们最终得到的表格:
我必须将此字段的数据类别设置为图像 URL:
现在可以在我们的 Power BI 报告中使用图像:
案例获取
想要获取本案例源文件文章的朋友请留言。