完美:优采云 和优采云 哪个好用(数据采集器都可以帮你轻松爬数据)
优采云 发布时间: 2022-11-29 22:41完美:优采云
和优采云
哪个好用(数据采集器都可以帮你轻松爬数据)
使用Access、Mysql、Sqlserver、Sqlite、Oracle、Mongo数据库
代理服务器、FTP服务器相关知识
常用SQL语句
该插件需要PHP或C#编程技能的支持
Apache 或 IIS 服务器设置、网站安装
来吧,需要大量的计算机和编程知识。
虽然你不需要写代码,但是你得会写代码。
看一下 优采云
采集
器的任务创建窗口:
一共有4个步骤,每个步骤都有一系列的配置,感觉挺繁琐的。
在此,周老师以采集
“周老师的博客”为例进行演示:
首先,配置采集的URL:
然后,我们同样使用默认的内容获取规则:
内容发布规则,我们选择保存到本地CSV文件:
在其他设置中,主要是用来配置proxy、cookie、thread等信息的,我们都使用默认的。
输入任务名称后,我们点击保存。我们刚刚创建的任务会出现在程序主窗口的任务列表中:
点击选中此任务,然后右击选择“开始”即可启动任务:
这样我们的采集任务就已经启动了,在“运行管理”选项卡中可以看到任务的状态:
" />
任务运行后,可以看到程序采集到的数据列表:
和数据内容:
配置页面虽然看起来复杂,但是对于有数据采集经验的人来说还是比较简单的,但是没有数据采集经验操作起来就有点困难了。
这种困难不是运行任务的困难,而是程序采集
的数据与自身需求不匹配的困难。
优采云
现在让我们看看另一个玩家 - 优采云
。
首页,界面很互联网。而且首页还提供了很多模板,相当于直接用这些模板来采集数据。
但是,与之前的 优采云
一样,我们使用 Mister State 的博客进行测试。
在输入框输入周先生博客的域名后,出现一个按钮,提示该网址已被识别,可以直接采集
。这简直太方便了,我们来试试吧。
点击后跳转到一个WebView窗口,打开周先生的博客:
但这加载太慢了。
等了十几分钟,还是没有打开。算了,不要用博客来测试。选择一个流行的模板进行试用:
我们来看看亿万爬虫垂涎的淘宝数据:
之前一直以为优采云
可以搞定淘宝的反爬验证,看来是自己想多了。
而且免费用户还不能用,仅此而已。
去腾讯试试。输入网址后,会打开打开的网页,然后自动下拉网页:
最后识别出列表数据(但不排除优采云
的后台服务器以模板的形式预设了腾讯网的采集识别规则):
" />
我们接着点击“生成采集
设置”:
可以进入下一步操作,可以看到优采云
的采集过程:
我们直接“保存并开始采集
”:
结果仍然是一个收录
WebView 的窗口。上面是WebView需要打开采集的URL,下面是采集的进度和状态。
窗口中不断打开待采集的URL,最终采集完成:
我们导出数据,我们可以选择导出到本地或者数据库,这里我们选择导出到本地:
终于导出完成了,来看看实际效果:
还是不如优采云
:
最后
优采云
采集
器和优采云
采集
器分别在周先生博客和上进行了测试。这是一个快速回顾:
优采云
虽然UI界面不友好,配置也有点复杂,但对于周先生来说,更符合他的个人习惯。
而优采云
,用起来好像比较笨,但是完全依赖于“浏览器自动化”:
效率略低,如果不使用模板(必须升级会员或付费模板),自己配置的采集结果容易乱。
与其这样,不如掌握一点计算机知识,用优采云
会更好。
直观:优采云
采集器的术语介绍
发布模块也称为发布规则,通常是指数据库发布模块或WEB发布模块。所谓发布模块就是软件中的设置,当采集到的数据需要发布到目的地(例如:指定的数据库,网站)。此设置可以保存为文件并导入到采集器中使用。数据库发布模块文件后缀为:.jhc;WEB在线发布模块文件后缀为:.cwr。
注意这里的采集规则是指采集网站和抓取内容设置。) 发布数据就是将采集到的数据发布到指定的目的地。优采云
采集
器支持四种发布方式。
" />
方法一:将网页发布到网站在线。这种发布方式类似于在网站后台手动添加数据。采集器将数据发送给网站后台程序,网站后台程序对数据进行处理。通常,后台程序将数据存储在网站数据库中。
方法二:保存为本地文件 该方法可以将采集到的数据发布到本地文件中,采集器支持保存为Txt格式、Csv格式和Html格式。
方法三:导入自定义数据库 该方法可以通过采集器连接其他数据库,将采集到的数据从软件内置数据库导入到其他数据库中。采集器支持连接Mysql、Access、Oracle、MSsql数据库。
" />
方法四:另存为本地Sql文件(Insert语句) 这种方法是将采集到的数据导出并保存为Insert语句,可以用来在数据库管理工具中插入数据。采集器
不仅可以采集和发布数据,还可以对采集到的数据进行编辑再发布。支持批量替换,通过SQL语句批量处理,在文本编辑框中编辑。