网站内容采集(这是快速入门爬虫1-0基础采集入门知识学习)
优采云 发布时间: 2022-04-18 11:07网站内容采集(这是快速入门爬虫1-0基础采集入门知识学习)
欢迎来到小白的数据梦工厂,很高兴你对爬虫感兴趣,想学习爬虫,或者想采集来自网络的一些数据。
我先自我介绍一下。我是优采云采集器的创始人刘宝强。优采云是全球领先的网络数据采集平台,每天服务于全球70万家公司和个人采集数亿条数据。恭喜您从众多爬行入门方式中选择了优采云,这是一个很好的起点,您将从一开始就站在巨人的肩膀上!
阅读这篇文章大约需要 15 分钟。
这是爬虫快速入门的第二部分,第一个链接:爬虫快速入门1-0基础采集简介
本系列文章将带领你从0基础开始,一步一步,从采集一个简单的网页,到复杂的列表,多页数据,Ajax页面,瀑布流等等,直到应对常见封IP,验证码等防采集措施,包括采集淘宝,京东,微信,大众点评等热门网站。由浅入深,循序渐进的深入网页数据采集领域,相信认真学完本系列,你也会成为采集大神,有能力把互联网变成自己的数据库(这一段提到了Ajax等专业数据,你可能不懂,但有个好消息:到目前为止你不需要了解这些技术概念)。
学习本内容,需要具备以下知识:
我研究过第一篇:爬虫快速入门-0基础知识采集介绍,意思就是你了解了基础知识并成功安装了优采云采集器,这些在第一篇文章中都有详细解释。
截止本文发布时,八爪鱼采集器的最新版本是7.1.8,下载地址是:http://www.bazhuayu.com/download
通过学习本内容,您将掌握以下内容:
了解如何采集列出数据。了解如何翻页实现多页数据采集。
第一篇我们成功采集一条数据,你可能觉得采集一条数据没用,采集一条数据最快的方法就是复制手动,可能有几十条数据,可以手动复制。在实际应用场景中,我们经常需要采集数百、数千甚至数百万的数据。所以第一篇的意义在于学习如何通过软件工具实现自动化采集。
在实际场景中,大部分网站数据可能是这样的(如下图):
一个网站有很多分类,每个分类都有很多数据,通常每个分类都是一个页面,里面有一个列表或者表格,还有一个翻页功能。以知名的京东商城为例。京东有很多产品品类(categories),每个品类(比如手机)都有一个手机数据列表(data list)。此列表页面收录 60 款手机的基本数据。每部手机(列表项)都有价格、标题、销量(字段)等多项具体信息,页面底部有翻页链接区,可以点击下一页查看基本第二页其他60部手机的数据。
常用网站数据*敏*感*词*
上面提到的几个概念在我们采集数据的时候经常用到:分类、列表、数据项、数据字段、翻页;如果你看到一个网站,你可以在心里构建它当启动这个网站 数据结构时,采集 变得非常容易。
在这里,我为大家准备了一个例子网站:Demo网站-电影数据分类,网址:/guide/demo/genremoviespage1.html,大家可以对比一下上面常见的网站数据*敏*感*词*看这个网站,是不是很像??
示例 网站 截图(带有 网站 数据结构标签)
如果我们不使用工具并手动复制完成数据采集,我们会这样做:
在浏览器中打开此 网站。复制第一部电影的数据: 标题 肖申克的救赎 类型 *敏*感*词*分数9.2 发行年份 1994 时间 142 分钟。粘贴到 Excel 中,另存为 5 列。重复上述步骤 2,直到复制第一页上 3 部电影的数据。在翻页区点击“下一页”链接,重复步骤2、3,然后再次点击“下一页”,以此类推,直到到达最后一页(最后一页没有“下一页”链接)。
那么如何使用 优采云 工具呢?还记得第一篇文章中提到的优采云采集 核心原则吗?
优采云采集的核心原理是:模拟人们浏览网页和复制数据的行为,通过记录和模拟人们的一系列上网行为,代替人眼浏览网页,手动复制网页数据代替人,从而将网页中的采集数据自动化,然后通过不断重复一系列设定的动作过程自动采集大量数据。
你可能已经想好了怎么做,别着急,让我们试着把我们的想法画成一个流程图,它应该是这样的:
让我解释一下这个流程图的具体步骤:
蓝色方块代表一些步骤,黑色圆角矩形线框代表我们要重复的一个或多个步骤。
打开这个网站的分类数据录入页面,就是刚才的示例URL。接下来是需要重复的步骤:循环点击下一页,黑色矩形线框内的部分需要重复。它收录另一个需要重复的步骤:循环播放每部电影。同样,让我们看看里面。有一个蓝色的步骤:提取每个字段的数据。这就是我们现在需要做的,让优采云工具自动提取每个字段。执行完最后一个蓝色步骤后,需要重复执行此蓝色步骤,直到自动提取出第一页三部电影的数据。至此,“循环每部电影”的步骤就完成了。然后我们执行下面的蓝色步骤:点击下一页,所以网页会跳转到第2页,
用优采云工具采集仔细对比手动复制数据的4个步骤和流程图,你会发现它们非常相似,可以说是完全一样的过程。这再次说明了优采云像机器人一样,模拟人类思维和上网、复制数据的过程。虽然每个网站都不一样,但好消息是:任何复杂的网站都可以用这个简单的思路来做,想想人家是怎么做的,然后在优采云中设置一个对应的工作流程可以实现任意网站的采集。这就是 优采云 能够不断变化地适应 采集any网站 的秘诀。
看到这里,也许你已经迫不及待想要实际操作它来验证我们的想法了。我们来看看如何实际操作它:
打开优采云采集器,点击“自定义采集”按钮→点击左上角“新建任务”按钮进入任务配置页面,然后输入网址(/ guide/demo/genremoviespage1.html) → 保存URL,系统会进入工艺设计页面并自动打开输入的URL。
操作录屏 - 第一步
2. 网页打开后,随着鼠标的移动,会出现蓝色背景来表示内容。优采云 内置了专门为采集 数据开发的浏览器。除了像其他浏览器一样显示网页外,还增加了很*敏*感*词*来支持采集,其中之一就是当鼠标移到不同的内容上时,对应的内容会自动标记为蓝色背景。当鼠标点击时,该区域将被选中并标为绿色,并弹出操作提示框。这里优采云已经自动识别出选中区域收录多个数值字段(子元素),并用红色虚线框标记(预选的意思),我们点击第一个选项“选择子元素”,那么预选的多个数据字段将被正式选中并标记为绿色,并且这些字段也将显示在提示界面的表格中。. 然后优采云提醒我们:找到了3组相似元素,也就是自动找到了另外2部电影的数据,也是用红色虚线框预选的,我们选择了第一个选项“全选” ,然后选择所有电影数据。
操作录屏 - 步骤 2
在第二步中,我们接触到了几个新的东西:子元素、智能提示框、各种颜色的选择提示。如果您有兴趣,可以阅读下面的详细说明。当然也可以直接跳到第3步操作。
智能工具提示:
为了记录人的步数采集数据,优采云会在用户选择要操作的网页内容时,让用户选择要进行的操作。例如,如果用户选择了一个链接,他可以选择提取该链接。文字、URL 链接、或点击此链接等。优采云 的智能提示不仅可以让用户选择操作,还可以为用户预测最有可能进行的下一步操作。通过网页数据的智能分析,优采云会自动发现数据字段和相似数据项,从而指导用户操作。4是不是4很聪明,很贴心?
选择提示颜色:
蓝色表示鼠标当前位于哪个内容区域。
绿色表示我们点击选中的内容。
红色虚线表示系统智能识别并预测您要选择的内容。
子元素:
当我们选择一个收录多个数据字段的区域时,优采云指的是我们选择的区域为一个“元素(English Element,这是一个技术术语)”,每个数据字段称为一个“子”元素,一个元素可能收录多个“子元素”。
3. 我们已经选择了上一步中的所有数据。在决定 采集 这些字段之前,让我们先检查一下表格。您会发现标题本身也被提取为字段。其实我们只需要真正的Title,不需要标题,所以我们可以直接删除提示框表单中的“字段1”,其他几个冗余字段同理删除,然后修改我们想要的字段的字段名. 单击 采集 确认数据字段。
操作录屏 - 步骤 3
4.我们现在采集第一页的所有数据,一共3页,然后我们设置翻页,点击下面的“下一页”按钮,优采云会自动识别这是下一页链接,我们选择“循环点击下一页”选项,系统会翻页,采集每一页直到最后一页。点击开始采集,在弹出的窗口中选择“开始本地采集”,会打开一个窗口继续采集。
操作录屏-第四步
概括:
恭喜!您已成功采集电影的所有数据网站,并且以同样的方式您将能够采集任何收录列表、表格和页面的网站,你在采集的路上又取得了一个里程碑,未来我们会继续学习更多的技能,一步步成为采集的大神。
如果您有任何问题或想法想与我分享,请在下面的评论部分留言。也可以关注我的知乎与我互动:点击关注“刘宝强的知乎”。同时,欢迎关注我的知乎专栏,获取新的文章通知:点击关注“小白的数据梦工厂”