秘密武器:优采云采集器
优采云 发布时间: 2021-01-09 09:17秘密武器:优采云采集器
本教程向您展示如何采集单个网页上的数据,该数据适合于采集特定页面上的数据。 “打开网页”和“提取数据”只有两个步骤,这是一个非常简单的过程配置,但在所有过程中都是必不可少的。目的是让所有人都知道如何创建自定义采集任务并掌握最基本的自定义任务配置方法。
本教程中提到的示例网站的地址为:
例如,示例网站是一条新闻信息,我们需要提取这条新闻。
第1步打开网页
登录优采云7.0采集器→点击左上角的“ +”图标→选择自定义采集(您也可以在首页的自定义采集下单击“立即使用” ),进入“任务配置”页面。然后输入URL→保存URL,系统将进入流程设计页面并自动打开之前输入的URL。
打开网页后,我们可以修改任务名称。如果未修改,则默认为网页标题。可以在运行采集之前随时修改任务名称。
第2步提取数据
在网页上,只需选择要提取的数据,窗口右上角就会出现相应的提示。在本教程中,我们以新闻标题,日期和文本的提取为例。请灵活使用它们,然后选择所需的内容。
设置提取数据后,您可以单击保存并开始运行采集。但是此时的字段名称是系统自动生成的。为了更好地满足您的需求,您可以单击右上角的“处理”以进入处理页面以修改字段名称。首先选择要修改的字段名称。此时,下拉框中将有其他字段名称,可以直接选择和使用。如果您没有所需的内容,请输入新的字段名称。修改字段名称后,单击“确定”进行保存。保存后,您可以运行采集。
所有版本都可以运行本地采集,旗舰版及更高版本可以运行云采集并设置计时云采集,但是在运行云采集之前运行本地采集进行测试。任务运行采集后,您可以选择Excel,CSV,HTML和其他格式来导出或导入数据库。数据导出后,可以单击链接进入数据存储文件夹以查看数据。默认情况下,该文件以任务名称命名。