excel自动抓取网页数据(几课启动云采集配置好的任务可、CSV、API )

优采云 发布时间: 2021-12-14 13:09

  excel自动抓取网页数据(几课启动云采集配置好的任务可、CSV、API

)

  经过前几节课,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及实现翻页的任务配置方法。

  任务配置完成后,即可启动采集任务,该任务会自动采集数据。配置的任务可以是在本地计算机上运行【Start Local采集】,也可以是在优采云提供的云服务器上运行【Start Cloud采集】。本地采集和云端采集完成后得到的数据可以导出Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种格式。

  一、[启动本地采集]和[启动云采集]

  1、【启动本地采集】

  【启动本地采集】即使用本地计算机进行数据采集。常用于任务调试或小规模数据采集。

  

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  【启动本地采集】,会打开一个新任务采集窗口,这个采集窗口在采集过程中不能关闭,否则采集任务会中断。

  在任务采集窗口中,我们可以清楚的看到优采云的采集状态,进而判断采集任务是否正常执行。示例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...优采云 提取的数据将显示在底部的数据预览窗口中浏览器。

  

  为了更好的观察采集的状态,点击

  

  用于隐藏数据预览窗口的按钮。再次点击

  

  按钮再次显示数据预览窗口。

  

  2、【启动云采集】

  【启动云采集】使用优采云提供的云服务集群进行数据采集。在本地配置好任务并且测试没有问题后,可以【启动云采集】将任务交给优采云的云服务集群给采集。

  

  特别说明:

  一个。云采集仅对优采云旗舰版以上的用户开放。点击查看版本包。

  与[Local采集]相比,[Cloud采集]具有以下优势:

  1、提高采集的速度。云集群采用分布式部署方式,多个节点同时为采集,有效提高了采集的速度。

  2、 实现无人值守。您可以关闭电脑和软件进行数据采集,真正的无人值守。

  3、时间采集。云采集集群7*24小时工作,可设置任务定时采集。

  4、 配合【验证码自动识别】【优质代理IP】突破网站反采集策略。

  5、数据自动存入数据库。

  6、 通过数据导出API接口,实现二级导出,与内部系统无缝对接。

  

  二、数据导出

  数据采集完成后,可以选择需要导出的格式。

  1、【本地采集】数据可以导出为:

  Excel: ①导出Excel时,一个Excel文件最多可以有2W条数据。示例:一个任务共有采集到10W条数据。导出到Excel时,会有5个Excel文件,每个文件有2W条数据。②Excel单元格最多可容纳32,000个字符(包括中西文本或字母、数字、空格和非数字字符的任意组合),超过它们将被截断。

  CSV: ① 导出为CSV 时,一个CSV 文件最多可以有2W 条数据。示例:一个任务一次总共有采集到10W条数据。导出为CSV时,会有5个CSV文件,每个文件有2W条数据。② CSV 单元格中可以收录的字符数没有限制。

  HTML:每个数据一个文件。

  数据库(SqlServer、MySql),本地采集数据需要手动导出到数据库,可以批量导出1-2000条数据。

  

  2、【云采集】数据可以导出为:

  Excel、CSV、HTML,详细内容同上。

  数据库(SqlServer、MySql),可设置为定时自动导出到数据库,时间间隔为1-24小时。单批次可导出1-2000条数据。

  API,通过数据导出API接口,实现二级导出,与内部系统无缝对接。

  注:【Cloud采集】数据默认保存3个月,之后将被永久删除。请及时导出[cloud采集]数据。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线