从网页抓取数据( GetdatafromXML处理json数据的处理步骤(图))
优采云 发布时间: 2022-02-06 01:22从网页抓取数据(
GetdatafromXML处理json数据的处理步骤(图))
将url获取的内容放到结果域result中。
第 3 步:从 XML 获取数据
我们知道通过这个url获取的数据是xml格式的,所以我们使用“Get data from XML”组件。第三步稍微复杂一些。
因为上一步输出的字段是result,所以这一步的xml源字段就是result。切换到内容选项卡。
解释“循环读取路径”。如果我们查看此示例的登录页面,我们会发现多条数据:
所以要读取所有产品数据,需要使用循环,而要获取这些数据,需要使用 XPath 路径,即 /feed/entry/content/m:properties。因为XPath中有命名空间,所以勾选“考虑命名空间”。
切换到“字段”选项卡,在路径 /feed/entry/content/m:properties 下,假设我们只需要三个字段:
第 4 步:使用“选择字段”组件轻松显示数据。
完成以上步骤后,运行,即可获取数据,截图如下。
获取json格式数据
提供了OData服务,所以我们也可以通过参数$format=json来获取json格式的数据。然后使用 HTTP Client 处理 json 数据。
Kettle的加工步骤如下:
这里主要介绍与处理xml数据不同的部分。
第一步是生成记录。 url 的值多了一个参数:$format=json。