点点鼠标学爬虫,分分钟数据批量导入到Excel
优采云 发布时间: 2022-05-04 19:05点点鼠标学爬虫,分分钟数据批量导入到Excel
今日目标:
学会简单的爬虫
如果问我,除了Excel还有什么技能,是现在职场人必须会的,我肯定毫不犹豫的说:爬虫。
怎么突然有了广告文的味道
1
昨天在写数据分析报告的稿子,在「艾瑞咨询网」上找到了很多的灵感,每一份报告,都做的特别的好。
- 涵盖各个行业的数据报告,游戏、互联网、电商、民生等等。
- 报告风格简约统一、不花哨,适合做工作汇报借鉴。
- 内容汇报逻辑清晰有序,分析角度非常洞见,值得学习
但是没看几份,我就放弃了,因为太麻烦了。
想到找到我喜欢的报告,需要反复的这样操作。
第1步,刷新报告列表
第2步,打开报告链接
第3步,查看报告详情
工作中也经常遇到这样的需求:
- 查找个资料,每个链接要反复点开查看
- 搜索的数据,要不停的复制粘贴到表格
- 找到的图片,要一个个右键下载到电脑上
所以我就在想,能不能把艾瑞的报告清单,整理到表格中,点击链接就可以直接打开报告?这样阅读的效率就大大提升了。
当然可以,用爬虫。
2
「爬虫」这个词你肯定也听到过,前段时间铺天盖地的Python广告,已经给大家灌输了爬虫这个名词。
爬虫学习起来其实很简单,不需要9.9,不需要学Python,只需要下载一个免费的软件,就可以了。
接下来,我就讲解一下,上面抓取艾瑞报告,是具体怎么实现的?
1- 下载「优采云」采集器
市面上爬虫用的软件有很多:
- 优采云
- 优采云
- 优采云
- webScraper
全部体验过后,我觉得「优采云」最好用,所以第1步,就是登录优采云官网,下载并安装软件。
官网地址:
2- 新建采集任务
下载安装完成之后,打开「优采云采集器」,复制「艾瑞咨询网」的网址,粘贴到「优采云」的链接区域。
然后点击「智能采集」。
然后,「优采云采集器」就会智能的分析网页中可以抓取的数据列表,并把这些数据,分成不同的字段列,显示在下方预览区域。
最后,点击下方的「开始采集」,优采云就会自动把网页中的数据抓取下来了。
是不是非常的简单?
3- 设置翻页按钮
但是采集之后,很快任务就会结束,显示只抓取到了15条任务;而艾瑞网的报告有成千上百个,这显然是不对的。
这个时候,你就需要了解一个新的概念:翻页。
就是让优采云采集器,根据采集的进度,自动翻到下一页,继续抓取。具体这样做。
1- 在「分页设置」设置中,选择「分页按钮」「点选分页按钮」。
2- 然后在网页中,点击分页按钮,比如「下一页」「加载更多」等等。
3- 然后我们再点击「开始采集」,不一会的功夫,优采云就可以抓取上百条信息。
4- 抓取详情页
不过,这个时候我们抓取的「标题链接」打开之后,只是「报告简介」页面,我们还需要点击「在线浏览」,才能查看报告的详情。
所以这就涉及到一个抓取动作:点击每个链接,抓取详情页信息。
这个操作在「优采云」中实现起来,也非常的简单。
选择「标题链接」字段,然后点击右侧的「深入采集」,优采云就会自动打开详情页,并采集信息。
5- 添加链接字段
但是目前的字段中,并没有「在线浏览」对应的超链接。
所以我们需要点击「添加字段」,然后鼠标点击「在线浏览」按钮,优采云就会自动识别链接,并进行抓取。
另外,还可以在字段标题上,点击右键,删除无关的数据列。
最后点击「开始采集」,优采云采集器,就会自动的把每个报告的详情链接,抓取下来了。
3
我上学那会儿,网络上的资源少之又少,不像现在,公众号、头条、抖音、快手、B站,各种平台,各种形式的学习资源应有尽有。
如果学会了爬虫,这些都是现成的资源库啊!