excel自动抓取网页数据(UiPath的DataScraping(数据抓取)功能,鼠标点击几下!)
优采云 发布时间: 2022-01-20 23:10excel自动抓取网页数据(UiPath的DataScraping(数据抓取)功能,鼠标点击几下!)
UiPath的DataScraping(数据抓取)功能,只需点击几下鼠标,即可实现浏览器、应用程序或文档界面的结构化数据,功能强大!
有两种爬取方式: a. 自动爬取整个表格内容;湾。根据需要爬取所需的列内容和列内容的URL(超链接URL)。
这个功能用的不多,但是还是很有用的,而且里面有一些小技巧,特此介绍。
一、数据抓取
数据抓取允许您将结构化数据从浏览器、应用程序或文档中提取到数据库、.csv 文件甚至 Excel 电子表格中。
注意:
建议在 Internet Explorer 11 及更高版本、Mozilla Firefox 50 或更高版本或最新版本的 Google Chrome 上使用此功能。
结构化数据是以可预测的方式呈现的高度组织化的特殊信息。
例如,所有 Google 搜索结果都具有相同的结构:顶部的链接、URL 字符串和网页描述。
这种结构使 Studio 可以轻松提取信息,因为它始终知道在哪里可以找到信息。
二、数据抓取向导的关键步骤
1. 打开要从中提取数据的网页、文档或应用程序界面,单击“设计”选项卡中的“数据采集”按钮,
打开阵列抓取向导:
单击下一步,然后选择要抓取的数据的第一个单元格的内容:
然后 Studio 会自动检测您是否指示了表格单元格并询问您是否要提取整个表格:
然后单击完成以转到步骤 5。
点击下一步,返回采集数据界面,点击同类型或同列的第二条数据,
选择后,Studio 可以推断出信息的模式,进入下面的界面。
2. 自定义列标题并选择是否提取 URL。
3.点击下一步进入预览数据界面,编辑最大提取结果数,然后改变列的顺序:
4.(可选)如果您需要获取其他列,请单击提取相关数据按钮。这允许您再次执行提取向导(同样需要两次单击相同类型的数据)以提取其他信息并将其作为新列添加到同一个表中。
5. 表示网页、应用程序或文档中的“下一步”按钮(如果要提取的信息跨越多个页面)。
在这里你需要告诉Think,如果你需要它来帮助你点击下一页以便采集所有数据。如果选择是,则需要单击“下一步”按钮,否则单击否以完成向导。
完成向导后,会在 Studio 中生成一个序列:
数据抓取始终会生成一个容器(“附加浏览器”或“附加窗口”),其中收录用于顶级窗口的选择器,以及带有部分选择器的提取结构化数据活动,以确保正确识别要抓取的应用程序。
此外,“Extract Structured Data”活动还有一个自动生成的XML字符串(在ExtractMetadata属性中,自动生成的内容很简单,手动逐列抓取的内容稍微复杂一些,幸好两者都是自动生成的,没有非常注意),字符串表示要提取的数据。
最后,所有抓取的信息都存储在你定义的DataTable变量中(上图中的ExtractDataTable)。接下来,您可以使用变量 ExtractDataTable 保存到数据库、csv 文件或 Excel 电子表格。
三、可能的问题
网页文件是用html编写的,网页上看到的文字可能会被包裹在多层代码中进行格式化。如果捕获了不适当的层,则可能无法捕获所需的 URL,例如:
抓取包裹文本所在的图层,可以抓取网址,而不是包裹所在的图层,比如单元格。
四、总结
如果需要爬取网址,只能使用第二种方法(按需获取列)。