c 抓取网页数据(2016年10月12日影刀强烈推荐这款)
优采云 发布时间: 2022-01-23 15:19c 抓取网页数据(2016年10月12日影刀强烈推荐这款)
目前*敏*感*词*比较流行的RPA产品在国内有影刀、Uibot、鸿基、阿里云RPA,国外有UiPath和Blue Prism。我主要展示国货。原因很简单。国货更符合国货业务,更适合大家的操作习惯。重点介绍以下两款产品:
一、影刀
强烈推荐该产品,原因如下:
1、拖放操作,方便快捷
2、以人为的思维顺序执行任务的命令式过程
3、0码,没有编程经验的朋友可以玩得开心
4、支持python开发,可以很好的与其他办公自动化功能集成
二、Uibot
它也是一款出色的产品,具有以下特点:
1、通过流程图的方式构建流程
2、支持C、C#等其他语言
本产品比较适合一些开发伙伴。比如我是做C#开发的,以后会有Uibot的实际操作。
总之,目前市面上的RPA产品已经非常成熟和强大,小伙伴可以选择适合自己情况的产品。这些产品只是我们的工具,更重要的是业务发展的思维。
所以让我们继续讨论这个话题。数据爬取不再是一个陌生的概念。无论是程序还是一些工具,都可以帮助我们获取公共数据。当然,RPA可以做到,也可以做得更方便。让我们来看看。
注意:在执行任务之前,一定要准备好工具、目标和流程
使用工具:暗影刀 RPA
目标:抓取老板直聘中RPA的工作清单数据网站
流程图:
第一步:打开网页
第 2 步:输入关键字
填写输入框(web):我们需要告诉工具输入框在哪里,所以我们需要捕获输入框
第三部分:点击搜索
点击元素(web):我们需要告诉工具搜索按钮在哪里,所以我们需要捕获搜索按钮
第 4 步:显示结果
注意:这里使用等待两秒显示数据,这是保证流程顺利执行的保证条件之一。未来会有更深入的解释,使用各种方法来提高过程的鲁棒性。
第 5 步:数据捕获
这里我们需要抓取相似的元素来确定数据规则,比如职位:RPA开发工程师,它位于网页列表中的固定位置,我们只需要抓取两个不同的职位,告诉工具我们想要获取有关此元素的信息。
注意:必须是类似的元素,比如上图中的“RPA开发工程师”和“RPA开发负责人”,这样我们才能抓取页面上的所有职位信息,如下图:
当然,我们也可以抓取其他元素,只要添加一个新列,然后抓取两次元素,记住,一定是两个不同但相似的元素。
这样,我们通过5个步骤抓取了网页的数据。我这里写的比较详细,其实不到一分钟就写完了。