如何使用Youcai Cloud Collector自定义模块教程

优采云 发布时间: 2020-08-05 23:07

  根据以前使用模板爬网数据的经验,我相信每个人都应该能够更加熟练地使用优采云采集器. 也许有些朋友很好奇,我们可以只浏览软件“数据”预设的模板吗?当然不是. 优采云采集器还具有自定义采集功能,供用户采集所需数据. 与预设模块相比,自定义设置更为灵活,尽管比预设模板更为复杂. ,但是抓取的数据更符合您的想法. 本文的编辑者将为您提供一个针对Youcai Cloud Collector的自定义模块教程.

  

  优采云采集器V7.6.4正式版

  类别: 网站管理员工具大小: 57.14M语言: 简体中文

  评分: 6

  下载URL

  安装教程: 优采云采集器安装教程

  新手教程: 优采云采集器新手教程

  第1步

  

  首先,像往常一样,启动并登录优采云采集器,进入主界面,然后单击[New]下的[New Task Group]以创建新组.

  

  单击“确定”以创建一个新组

  第二步

  

  创建组后,单击[新建]下的自定义任务,您将进入这样的界面.

  

  我们可以找到要爬网的网页的链接. 在这里,编辑人员前往JD搜索手机,搜索结果出来后,我们可以复制链接.

  

  将我们复制的链接粘贴到URL列中,将任务组更改为先前创建的组,然后单击[保存设置].

  第三步

  

  保存设置后,它将跳到爬网界面,并且软件将自动开始识别要爬网的网页部分. 根据各个计算机的网络速度,相应的等待时间也有所不同.

  

  识别完成后,我们可以看到有很多数据,并且有很多无用的数据需要消除.

  

  将光标移到表格字段,将出现两个图标,笔图标用于更改字段名称,垃圾桶用于删除该字段.

  

  我们可以自由删除和更改字段名称,这里我仅将字段保留在上图中.

  第四步

  

  设置完字段后,我们将注意力转移到上图中的小框,第一个不可选择,我们只是忽略它.

  滚动页面以在采集之前加载更多数据: 因为许多网站现在都使用动态页面,所以加载时将不会显示某些内容,但是当我们下拉菜单时将逐渐显示某些内容,此功能是防止出现这种情况.

  翻页并采集多页数据: 设置为对多页进行爬网,仅取消选中当前页.

  单击列表中的XXX并采集下一个级别的页面: 此功能使我们可以对子页面中的内容进行爬网.

  在这里,我们将不深入探究,仅检查前两个项目,然后单击[Generate Collection Settings].

  

  点击生成后,您可以开始保存或查看,这里单击保存并开始采集.

  第五步

  

  到达此界面后,我们可以看到详细的过程. 在此页面上爬网的内容在内部循环列表中.

  

  我们点击外环的设置按钮.

  

  展开并退出循环设置,检查循环执行次数,这里我们只抓取3页.

  

  开始采集

  

  采集完成,单击“导出”.

  

  此外,如果您抓取的页面中有重复的数据,该软件还会直接提示您,并根据您的情况选择保留还是删除它.

  

  导出方法

  

  保存导出文件的位置

  

  保存完成

  

  查看数据

  以上是编辑器带给您的Youcai Cloud Collector定制模块的教程. 熟练使用后,相信您的朋友可以采集更多数据. 使用Youcai Cloud Collector采集数据后,您可以按照以下步骤进行操作: 对采集的数据进行分析,并完成各种任务. 我希望这篇文章对大家都有帮助.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线