除了Python以外,还有哪些工具可以用来爬取数据?

优采云 发布时间: 2022-06-18 13:08

  除了Python以外,还有哪些工具可以用来爬取数据?

  ●我是来自【真诚恳切的学术与生活关怀】群(也就是学社的学术1群)的Glitter,就读于广东某985高校会计学专业。首先我想说明的是,给学社君投稿这样一篇爬虫教程的动机并不是为了秀自己的任何优越感,而是因为深度认同了学社的公益学术理念:让每一个有一技之长的普通学生都有机会把自己的所学所长分享给同辈。

  ●看到学社君以前有过很厉害的大佬学长分享过Python爬虫教程(),虽然心里很佩服学长的能力,也很感激学长码了那么长的教程直接用推文分享出来,但我还是觉得Python对于一般人而言是存在门槛的。如果只是相对简单的数据爬取工作,在Python以外完全可以依靠傻瓜菜单操作的小工具来一键实现,无需任何编程基础。

  ●这篇分享实际上来自以下这段日常的线上对话。大家会发现爬虫的起点其实很低,这门技能除了在学术研究抓取数据时用得到,各行各业里只要和数据打交道的公司白领们或许也会觉得有用。千万不要自己给自己贩卖焦虑哦~

  

  学长,平常用excel一点点导入数据真的好麻烦,有没有快一点的方法呢?

  可以使用爬虫哦!一般指的是网络爬虫,即通过算法,按照个人的要求抓取万维网上的信息。

  

  

  听起来很方便的样子呢,那爬虫又是怎样工作的?

  当我们决定去某个网页后,首先,爬虫可以模拟浏览器去向服务器发出请求;其次,等服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;接着,爬虫可以根据我们设定的规则批量提取相关数据,而不需要我们去手动提取;最后,爬虫可以批量地把数据存储到本地。

  因此,爬虫的工作可以分为获取数据、解析数据、提取数据和储存数据四部分。下面主要介绍Excel、优采云采集器和优采云采集器的数据爬取功能。

  

  爬虫工具介绍

  

  1) Excel

  其实Excel也有爬虫功能,而且人人都能学会用,下面我们用Excel来采集全国空气质量排名数据,地址如下:

  下面以Excel2019操作为例:

  输入采集对象

  首先,单击【数据】选项卡,在【获取数据】选项组中,选择【自其他源】→【自网站】

  

  然后将网址输入URL地址,系统会跳转到需要采集数据的页面。

  采集和导出

  然后,选定页面上的表格,单击【加载】按钮即可把数据导入到工作表中,如下所示:

  

  注:用Excel爬取数据,主要是使用它去获取网页中的表格数据,对于非表格数据则不建议使用,因为格式凌乱,一般都不是我们需要的效果。

  

  2) 优采云采集器

  优采云采集器是一款桌面应用软件,支持三大操作系统:Linux、Windows 和 Mac,可以直接在官网免费下载,地址如下:

  优采云采集器把采集工作分为两种类型:智能模式和流程图模式。

  

  

  智能模式就是加载网页后,软件自动分析网页结构,智能识别网页内容,简化操作流程,这种模式比较适合简单的网页。

  流程图模式的本质就是图形化编程。我们可以利用优采云采集器提供的各种控件,模拟编程语言中的各种条件控制语句,从而模拟真人浏览网页的各种行为爬取数据。

  下载安装完毕后,打开优采云采集器可以看到它简洁的主界面,其主打的智能采集模式对小白最为友好,只要我们将想要搜寻信息的网址输入,就能自动进入智能采集模式。

  下面以实习僧官网作为爬取对象举例:

  打开采集器,输入网址

  点击智能采集

  *第一次爬取数据建议用智能采集。

  可以看到,优采云采集器会自动识别输入网址的页面类型,识别文字内容和其他要素,智能采集的功能已经帮助我们把重要信息(公司、地点、时间等)提取出来了。

  若该网页不止1页,一般优采云采集器会默认选择自动分页识别,我们也可以点击分页设置,设置分页按钮。

  

  设置采集范围

  例如,我们只想要前3页的数据,就可以在设置采集范围里设置结束页-自定义-数值选到3即可。

  

  数据筛选

  例如,我们想采集这个网页中地点在重庆、且属于金融实习相关的,就可以点击【数据筛选】-【新建条件】-【选择字段名称和条件】。因为公司地点内容是city,所以字段名称选择city,条件选择包含,值框里输入重庆,这就建立好了第一个条件。

  

  但是我们还想要金融实习相关这第二个条件,又因为这两个条件是并且的关系,所以点击新建条件。(若第二个条件与第一个条件是或者的关系,那就要点击新建分组)。

  此时,由于金融实习在之前的数据框是f-l,所以第2个条件的字段名称就是f-l,条件选择包含,值框填金融实习。点击确定保存筛选条件。

  

  采集和导出

  然后我们就可以点击【开始采集】。

  可以自主选择定时启动或直接启动。(定时启动收费,直接启动免费)

  

  采集完毕后,我们点击【导出数据】,可以自主选择Excel、CSV、TXT、HTML四种格式将数据导出,就可以到导出的文件中去看爬取的数据啦~

  

  3)优采云采集器

  优采云采集器是一款可根据不同网站,提供多种网页采集策略与配套资源,访问网页文档的互联网数据采集器。它操作简单,完全可视化图形操作,可以非常容易的从任何网页精确采集我们需要的数据,生成自定义的、规整的数据格式。

  优采云采集器分为简易采集和自定义采集两种模式,简易采集内置主流数据源,无需配置;自定义采集可以自由配置,灵活契合所有业务场景。

  

  下面以采集【东方财富网股吧帖子内容信息】为例介绍一下简易采集的操作流程:

  选择对象

  首先点击【简易采集】,选择简易采集中东方财富网图标

  

  进入到东方财富网版块后可以进行具体规则模板的选择,此时我们选择【东方财富网-股吧-帖子内容采集】,如图:

  

  设置采集范围

  然后会进入到信息设置页面,根据个人需要设置翻页次数,例如这里我们选择3页:

  采集和导出

  点击保存并启动后就可以进行数据采集了,以下是本地采集效果示例,如图:

  采集结束后,点击【导出数据】,可以自由选择Excel、CSV、HTML等格式,导出数据的情况如下:

  

  编者语

  ●非常感谢Glitter学长真诚恳切的分享。上面介绍的这些爬虫工具的功能之强大远远超过以上所列举的这些,操作上也都很简单快捷。归根结底,爬虫工具的使用是为了方便我们提取数据,消除日常工作中那些提取数据过程中简单重复的工作。学习技能贵在有清晰的目的和规划,如果仅仅是为了赶时髦而去学Python,未免有买椟还珠之意。我们出来做公益学术不是为了让受众变得越来越焦虑、内卷,而是希望切实拉近知识技能与每一个普通人的距离,消除信息不对称。

  ●学术讲究的是“独立之精神,自由之思想”,当然在今天这样一个知识经济的时代,还要辅以“扎实之技能”。我们提倡的公益学术无非就是希望尽可能以免费无偿的形式把这样一种学术精神和技能干货分享出来。更深层地,我们认为公益学术分享并不需要分享者有多么好看的个人title,也不应过分强调知识与技能所带来的功利结果,只需顺其本位将知识与技能本身的魅力展示出来即可,只需切实地拉近大众与这些知识与技能的距离即可。至于受众拿这些知识与技能去赚钱还是谋求学术上的深造,这些是不应该由我们去定义或引导的。换言之,关注学术(及其衍生出来的知识与技能)本身,而非学术所带来的附加结果的公益学术分享,才有可能是更纯粹的公益学术。

  ●对于希望入门Python的朋友,学社君曾经推送过Glitter学长投稿的个人Python学习笔记,以下是当初为学长的笔记专门制作的宣传推文(点击图片转跳):

  如今该笔记已无需通过填写问卷领取,直接在后台回复【Glitter_Python】即可获完整笔记的提取链接。

  ●目前学社有3个活跃的公益学术交流群:【真诚恳切的学术与生活关怀】、【始终如一的学术与生活关怀】、【一脉相承的学术与生活关怀】,每一个群的风格与定位都有所不同。如有进*敏*感*词*流的需求,可以在后台回复【进群】获取进群规则。

  文案 | Glitter学长、Z学长

  排版 | 言音学姐

  审核 | 言音学姐、Z学长

  关 于 我 们

  金融计量学社是一个私人公众号,专注于经济与金融相关知识科普。我们追求学术与实践相结合,追求义利合一,倡导金融业界关注社会责任,帮助在校学生树立对商业与经济的理性认知。我们不是社团,也不是组织。与任何院校,单位,部门均无关。我们不以盈利为目的,本号只是一群志同道合、至心为人且热爱学习的小伙伴们,自发自愿为同学们建立的公益学术传播交流平台。所有的学术资料整理、排版和小助手等工作均是由我们学术分享群里的志愿者朋友们公益、无偿,不计回报的自愿劳动。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线