用GooSeeker数据管家能采集微博内容吗?

优采云 发布时间: 2020-08-20 03:01

  用GooSeeker数据管家能采集微博内容吗?

  

  集搜客数据管家是GooSeeker发布的采用新内核的网路爬虫工具,数据管家不仅仅把集搜客网络爬虫软件移植到新内核上,而且整个操作体验愈发简练易用了。

  下面将讲解用数据管家采集微博的操作过程,请预先下载并安装好集搜客数据管家软件。

  1,进入微博采集工具管理界面

  集搜客数据管家软件看起来就是一个浏览器,用法也跟浏览器一样。要采集微博数据,就要在数据管家上先步入微博采集工具箱页面,页面上有很多微博采集工具,找到想使用的微博工具,进入该工具的管理页面,就可启动采集过程和管理采集过程。下面将详尽讲解。

  1.1,进入微博工具箱页面

  微博采集工具箱页面列举了所有工具,是官网上的一个网页。

  a) 怎样找到微博工具箱

  数据管家刚一运行,就会把GooSeeker网站首页加载下来。另一个步入方式是点击地址栏上的“返回首页”按钮重新把首页显示下来(参看右图箭头指向的按键)。

  在首页底部选择菜单“产品”->“微博采集”就能步入微博采集工具箱界面。

  

  b) 选择合适的微博采集工具

  微博上的不同网页对应不同的采集工具,这些采集工具的关系参看《新浪微博数据采集攻略》,这些工具可以组合在一起使用,前一个工具采集到的数据导成excel格式之后,把网址拷贝下来,添加到下一个工具中。

  点击右图中的某个工具,会步入工具介绍页,在那里点击“开始使用”按钮即可步入工具的管理页面。

  如下图,每个小方块是一个微博采集工具。

  

  下面以关键词搜索结果采集为例,讲解爬虫运行方式。

  1.2,进入关键词搜索结果采集界面

  

  虽然微博采集工具不同,但是界面基本上相同,主要的功能按键有:

  a)创建任务

  对应上图的“确认添加”和“细分条件”,当输入了要搜索的关键词之后,可以设置细分条件,也可以不设置。确认添加后就创建了采集任务

  b)启动采集

  对应上图的“启动采集”按钮。如果数据管家还没有运行上去两个爬虫群窗口,那么须要点击“启动采集”,点击后会提示是否须要预先登陆微博。如果还没有登陆,一定要先登陆微博。

  c)打包

  采集完成了或则在采集中途,都可以点击“打包”按钮,就能见到提示界面,把早已采集到的微博数据下载出来。

  d)数据下载

  只有新采集的数据可以点击“打包”按钮,如果要重新下载曾经打包的数据,点击“数据下载”按钮。

  e)其他功能

  界面上还有好多管理功能,比如

  1,点击“采集状态”按钮,可以看详尽的采集进度

  2,点击某条采集任务的关键词,界面上部都会显示最新采集结果数据

  3,点击“采集状态”按钮之后,在界面上会显示“重采失败线索”按钮,可以把采集失败的网址重新采集一遍。

  2,观察采集运行情况

  2.1,采集数据的窗口

  集搜客数据管家可以同时打开好多页签浏览器,点击“启动采集”的时侯会降低两个页签浏览器窗口,他们跟普通窗口不一样,右下角有个进度球,鼠标漂浮在里面可以看见状态不断变化。

  

  有进度球的窗口关掉的时侯就会提示,要求确认是“强制关掉”还是“安全关掉”,如果强制关掉,窗口立刻就关掉了,如果安全关掉,等待把当前任务采集完成了,就会手动关掉。

  2.2,打包数据的窗口

  启动微博采集以后,会同时运行上去两个爬虫群窗口,其中一个看起来并不采集数据,但是,最好也不要关掉,因为这个窗口是专门拿来打包数据的,如果关掉了,只能等采集数据的窗口做最后一次打包,如果最后这一次打包失败,会遗失掉大量数据。

  下面是打包数据窗口的截图,可以看见持续不断地打包数据。这种增量式打包更可靠,即使有遗失也是局部的。

  

  3,注意事项

  1. 爬虫正在运行的时侯,不要最小化数据管家的界面,也不要缩小,而是应当尽量最大化,否则微博有可能会不加载网页内容。

  2. 如果还想用笔记本做其他事情,数据管家界面上可以覆盖别的窗口,并不影响爬虫的运行,就是不能最小化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线