excel自动抓取网页数据(几课启动云采集配置好的任务可、CSV、API )
优采云 发布时间: 2021-12-14 13:09excel自动抓取网页数据(几课启动云采集配置好的任务可、CSV、API
)
经过前几节课,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及实现翻页的任务配置方法。
任务配置完成后,即可启动采集任务,该任务会自动采集数据。配置的任务可以是在本地计算机上运行【Start Local采集】,也可以是在优采云提供的云服务器上运行【Start Cloud采集】。本地采集和云端采集完成后得到的数据可以导出Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种格式。
一、[启动本地采集]和[启动云采集]
1、【启动本地采集】
【启动本地采集】即使用本地计算机进行数据采集。常用于任务调试或小规模数据采集。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
【启动本地采集】,会打开一个新任务采集窗口,这个采集窗口在采集过程中不能关闭,否则采集任务会中断。
在任务采集窗口中,我们可以清楚的看到优采云的采集状态,进而判断采集任务是否正常执行。示例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...优采云 提取的数据将显示在底部的数据预览窗口中浏览器。
为了更好的观察采集的状态,点击
用于隐藏数据预览窗口的按钮。再次点击
按钮再次显示数据预览窗口。
2、【启动云采集】
【启动云采集】使用优采云提供的云服务集群进行数据采集。在本地配置好任务并且测试没有问题后,可以【启动云采集】将任务交给优采云的云服务集群给采集。
特别说明:
一个。云采集仅对优采云旗舰版以上的用户开放。点击查看版本包。
与[Local采集]相比,[Cloud采集]具有以下优势:
1、提高采集的速度。云集群采用分布式部署方式,多个节点同时为采集,有效提高了采集的速度。
2、 实现无人值守。您可以关闭电脑和软件进行数据采集,真正的无人值守。
3、时间采集。云采集集群7*24小时工作,可设置任务定时采集。
4、 配合【验证码自动识别】【优质代理IP】突破网站反采集策略。
5、数据自动存入数据库。
6、 通过数据导出API接口,实现二级导出,与内部系统无缝对接。
二、数据导出
数据采集完成后,可以选择需要导出的格式。
1、【本地采集】数据可以导出为:
Excel: ①导出Excel时,一个Excel文件最多可以有2W条数据。示例:一个任务共有采集到10W条数据。导出到Excel时,会有5个Excel文件,每个文件有2W条数据。②Excel单元格最多可容纳32,000个字符(包括中西文本或字母、数字、空格和非数字字符的任意组合),超过它们将被截断。
CSV: ① 导出为CSV 时,一个CSV 文件最多可以有2W 条数据。示例:一个任务一次总共有采集到10W条数据。导出为CSV时,会有5个CSV文件,每个文件有2W条数据。② CSV 单元格中可以收录的字符数没有限制。
HTML:每个数据一个文件。
数据库(SqlServer、MySql),本地采集数据需要手动导出到数据库,可以批量导出1-2000条数据。
2、【云采集】数据可以导出为:
Excel、CSV、HTML,详细内容同上。
数据库(SqlServer、MySql),可设置为定时自动导出到数据库,时间间隔为1-24小时。单批次可导出1-2000条数据。
API,通过数据导出API接口,实现二级导出,与内部系统无缝对接。
注:【Cloud采集】数据默认保存3个月,之后将被永久删除。请及时导出[cloud采集]数据。