浅析通用爬虫软件—— 集搜客与优采云采集器

优采云 发布时间: 2022-06-10 10:26

  浅析通用爬虫软件—— 集搜客与优采云采集

  

  大 数 据 人

  报道DT时代应用资讯及动态,爆料剖析行业热点新闻

  最近想用爬虫软件来采集网页上的一些数据,根据百度的推荐以及相关关键词查询,找到了两款软件:“集搜客”和“优采云”,两款软件都有可视化界面,对于编程思维比较薄弱的用户来说,这两款软件上手容易,操作简单易懂。今天就带大家来了解对比一下这两款通用的网络爬虫软件。

  1.软件安装

  优采云:优采云安装跟其他独立软件一样,从官网下载,直接点击setup.exe安装。

  集搜客:集搜客网站上下载的软件也是一个自解压exe程序,双击启动安装,看到的是火狐浏览器安装过程,原来集搜客软件是作为火狐插件发布的。

  2.软件界面布局

  优采云:优采云的界面布局可以归为指引型界面,用户进入软件界面可以看到软件使用提示信息,如图一所示,包括向导模式与高级模式,同时列出了学习资源,采集规则,数据下载等等。对于初次使用的用户来说,起到了很好的指引作用。

  

  图一:优采云操作界面展示

  集搜客:集搜客软件分成两个操作界面,MS谋数台(图2)和DS打数机(图3),谋数台负责制定规则(网页标注),打数机负责采集数据(网络爬虫),一个谋、一个打,听起来还是比较符合其特征。集搜客启动后的界面没有显示使用帮助资源,而是位于“帮助”菜单中。

  

  图2:集搜客谋数台界面

  

  图3:集搜客打数机界面

  3.操作流程

  优采云:优采云的操作流程主要分为4个步骤(如图4所示),分别为:

  设置基本信息、设计工作流程、设置采集选项、完成。

  

  图4:优采云操作流程

  

  图5:优采云设计流程

  集搜客:集搜客的操作没有流程的概念,似乎定义采集规则可以不遵守既定操作顺序,而是有一个要领“建立一个箱子,把你要的内容摘进去”。所以我们称之为4“块”操作(如图6所示):包括命名主题、创建整理箱、规划爬虫路线和定义连续动作。

  

  图6:集搜客的4块功能

  综上所述,优采云的工作流程特征十分明显,用户决定软件怎样动作,什么时候动作,动作施加给哪里,从哪里采集内容等。而集搜客想让用户专注于摘什么数据,如果用户在摘取以*敏*感*词*那就定义爬虫路线,如果还想做些动作那就定义连续动作,整个流程细节用户不用关心。

  4.数据存储方式

  优采云:优采云分成单机运行和云采集,数据导出支持EXCEL、SQL、TXT等常用格式。

  集搜客:集搜客没有云采集,因为爬虫都在用户自己电脑上跑,用户想把爬虫放云上那是用户自己的事。跑下来的数据以XML格式存储,可见这是一种中间结果,集搜客官网提供了XML转EXCEL的工具,也在会员中心提供了基于云存储的数据导入和清洗功能,入库后可以导出成EXCEL格式。

  5.收费模式

  优采云:简单来说是一种软件销售模式(不排除免费版),除此之外用户下规则要积分,跑数据也要积分,而积分可以用钱购买或者参与社区活动换积分。

  集搜客:集搜客简单来说是一种服务收费模式,软件功能全部免费,如果需要一些爬虫管理和数据管理的服务,则根据服务类型、数量和时间进行收费。同样,下载规则要积分,如果使用云存储,根据存储量和存储时间收费。积分同样也可以用钱购买,或者参与社区活动赚积分。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线