网页数据抓取软件(从Web获取数据您可以在PowerBI中删除所有额外步骤)

优采云 发布时间: 2021-11-29 17:19

  网页数据抓取软件(从Web获取数据您可以在PowerBI中删除所有额外步骤)

  PowerQuery 可以连接到网页并从那里获取数据。但是,从网页获取数据的默认方法不会将图像提取到报告中。在本文中,我将向您展示一种方法,您可以使用该方法从网页中获取图像并将其转换为 Power BI 中的可视化。

  样本来源

  在这个例子中,我使用豆瓣电影排名作为来源。你可以在这里访问它:

  您可以在下面看到页面的外观。在此示例中,我们想要做的是将这些图像放入我们的 Power BI 报表中。

  

  从网络获取数据

  可以在 Power BI 中使用从 Web 获取数据。

  

  输入网址,点击确认,我们可以看到如下导航。我们选择“编辑”进入我们的 Power Query 界面。

  

  编辑查询

  我们现在需要做的第一件事是删除所有额外的步骤。只剩下从这个页面读取数据的第一步了。将第一步的步骤替换为以下代码:

  "= Web.BrowserContents("")"

  我们可以得到整个HTML页面的信息。

  

  然后将其转换为表格:

  

  下一步就是我们的重点,也就是如何搜索图片的HTML代码。

  找到页面中图片的HTML代码

  有多种工具和方法可用于查找图像的 HTML 代码。我经常用谷歌浏览器找,按F12打开我们的调试器,然后用元素选择器选择我们的图片,查看我们网页的结构信息。

  

  使用 HTML 代码中断数据

  上一步我们得到了网页的结构信息,接下来我们可以在Power Query中应用一些转换来实现这个功能。

  我的第一步是拆分所有电影的信息。直接使用分隔符拆分列的功能,它将作为我们的分隔符。拆分位置选项设置为每次出现分隔符时,拆分为选项设置为行。

  

  这将为每部电影提供一行数据,除了应该删除的第一行。您可以通过删除前几行,然后将第一行放在第一行中来删除它。

  

  现在让我们进入表格的图像部分。该图像位于“

  

  

  所以我们需要做的就是提取分隔符之间的文本:

  

  在这里,我们获取表中所有图像的 URL:

  

  您可以使用相同的方法获取这些电影的其他部分,例如片名、评分、票房、演员等信息。由于操作的重复性,我就不一一解释了,直接看我们最终得到的表格:

  

  我必须将此字段的数据类别设置为图像 URL:

  

  现在可以在我们的 Power BI 报告中使用图像:

  

  案例获取

  想要获取本案例源文件文章的朋友请留言。

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线