点点鼠标学爬虫,分分钟数据批量导入到Excel

优采云 发布时间: 2022-05-04 19:05

  点点鼠标学爬虫,分分钟数据批量导入到Excel

  

  今日目标:

  学会简单的爬虫

  如果问我,除了Excel还有什么技能,是现在职场人必须会的,我肯定毫不犹豫的说:爬虫。

  怎么突然有了广告文的味道

  1

  昨天在写数据分析报告的稿子,在「艾瑞咨询网」上找到了很多的灵感,每一份报告,都做的特别的好。

  - 涵盖各个行业的数据报告,游戏、互联网、电商、民生等等。

  - 报告风格简约统一、不花哨,适合做工作汇报借鉴。

  - 内容汇报逻辑清晰有序,分析角度非常洞见,值得学习

  

  但是没看几份,我就放弃了,因为太麻烦了。

  想到找到我喜欢的报告,需要反复的这样操作。

  第1步,刷新报告列表

  

  第2步,打开报告链接

  

  第3步,查看报告详情

  

  工作中也经常遇到这样的需求:

  - 查找个资料,每个链接要反复点开查看

  - 搜索的数据,要不停的复制粘贴到表格

  - 找到的图片,要一个个右键下载到电脑上

  所以我就在想,能不能把艾瑞的报告清单,整理到表格中,点击链接就可以直接打开报告?这样阅读的效率就大大提升了。

  

  当然可以,用爬虫。

  2

  「爬虫」这个词你肯定也听到过,前段时间铺天盖地的Python广告,已经给大家灌输了爬虫这个名词。

  爬虫学习起来其实很简单,不需要9.9,不需要学Python,只需要下载一个免费的软件,就可以了。

  接下来,我就讲解一下,上面抓取艾瑞报告,是具体怎么实现的?

  1- 下载「优采云」采集

  市面上爬虫用的软件有很多:

  - 优采云

  - 优采云

  - 优采云

  - webScraper

  全部体验过后,我觉得「优采云」最好用,所以第1步,就是登录优采云官网,下载并安装软件。

  

  官网地址:

  2- 新建采集任务

  下载安装完成之后,打开「优采云采集器」,复制「艾瑞咨询网」的网址,粘贴到「优采云」的链接区域。

  然后点击「智能采集」。

  

  然后,「优采云采集器」就会智能的分析网页中可以抓取的数据列表,并把这些数据,分成不同的字段列,显示在下方预览区域。

  

  最后,点击下方的「开始采集」,优采云就会自动把网页中的数据抓取下来了。

  

  是不是非常的简单?

  3- 设置翻页按钮

  但是采集之后,很快任务就会结束,显示只抓取到了15条任务;而艾瑞网的报告有成千上百个,这显然是不对的。

  

  这个时候,你就需要了解一个新的概念:翻页。

  就是让优采云采集器,根据采集的进度,自动翻到下一页,继续抓取。具体这样做。

  1- 在「分页设置」设置中,选择「分页按钮」「点选分页按钮」。

  

  2- 然后在网页中,点击分页按钮,比如「下一页」「加载更多」等等。

  

  3- 然后我们再点击「开始采集」,不一会的功夫,优采云就可以抓取上百条信息。

  

  4- 抓取详情页

  不过,这个时候我们抓取的「标题链接」打开之后,只是「报告简介」页面,我们还需要点击「在线浏览」,才能查看报告的详情。

  

  所以这就涉及到一个抓取动作:点击每个链接,抓取详情页信息。

  这个操作在「优采云」中实现起来,也非常的简单。

  选择「标题链接」字段,然后点击右侧的「深入采集」,优采云就会自动打开详情页,并采集信息。

  

  5- 添加链接字段

  但是目前的字段中,并没有「在线浏览」对应的超链接。

  所以我们需要点击「添加字段」,然后鼠标点击「在线浏览」按钮,优采云就会自动识别链接,并进行抓取。

  

  另外,还可以在字段标题上,点击右键,删除无关的数据列。

  最后点击「开始采集」,优采云采集器,就会自动的把每个报告的详情链接,抓取下来了。

  

  3

  我上学那会儿,网络上的资源少之又少,不像现在,公众号、头条、抖音、快手、B站,各种平台,各种形式的学习资源应有尽有。

  如果学会了爬虫,这些都是现成的资源库啊!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线