网站内容采集(这是快速入门爬虫1-0基础采集入门知识学习)

优采云发布时间: 2022-04-18 11:07

　　欢迎来到小白的数据梦工厂，很高兴你对爬虫感兴趣，想学习爬虫，或者想采集来自网络的一些数据。

　　我先自我介绍一下。我是优采云采集器的创始人刘宝强。优采云是全球领先的网络数据采集平台，每天服务于全球70万家公司和个人采集数亿条数据。恭喜您从众多爬行入门方式中选择了优采云，这是一个很好的起点，您将从一开始就站在巨人的肩膀上！

　　阅读这篇文章大约需要 15 分钟。

　　这是爬虫快速入门的第二部分，第一个链接：爬虫快速入门1-0基础采集简介

　　本系列文章将带领你从0基础开始，一步一步，从采集一个简单的网页，到复杂的列表，多页数据，Ajax页面，瀑布流等等，直到应对常见封IP，验证码等防采集措施，包括采集淘宝，京东，微信，大众点评等热门网站。由浅入深，循序渐进的深入网页数据采集领域，相信认真学完本系列，你也会成为采集大神，有能力把互联网变成自己的数据库（这一段提到了Ajax等专业数据，你可能不懂，但有个好消息：到目前为止你不需要了解这些技术概念）。

　　学习本内容，需要具备以下知识：

　　我研究过第一篇：爬虫快速入门-0基础知识采集介绍，意思就是你了解了基础知识并成功安装了优采云采集器，这些在第一篇文章中都有详细解释。

　　截止本文发布时，八爪鱼采集器的最新版本是7.1.8，下载地址是：http://www.bazhuayu.com/download

　　通过学习本内容，您将掌握以下内容：

　　了解如何采集列出数据。了解如何翻页实现多页数据采集。

　　第一篇我们成功采集一条数据，你可能觉得采集一条数据没用，采集一条数据最快的方法就是复制手动，可能有几十条数据，可以手动复制。在实际应用场景中，我们经常需要采集数百、数千甚至数百万的数据。所以第一篇的意义在于学习如何通过软件工具实现自动化采集。

　　在实际场景中，大部分网站数据可能是这样的（如下图）：

　　一个网站有很多分类，每个分类都有很多数据，通常每个分类都是一个页面，里面有一个列表或者表格，还有一个翻页功能。以知名的京东商城为例。京东有很多产品品类（categories），每个品类（比如手机）都有一个手机数据列表（data list）。此列表页面收录 60 款手机的基本数据。每部手机（列表项）都有价格、标题、销量（字段）等多项具体信息，页面底部有翻页链接区，可以点击下一页查看基本第二页其他60部手机的数据。

　　常用网站数据*敏*感*词*

　　上面提到的几个概念在我们采集数据的时候经常用到：分类、列表、数据项、数据字段、翻页；如果你看到一个网站，你可以在心里构建它当启动这个网站数据结构时，采集变得非常容易。

　　在这里，我为大家准备了一个例子网站：Demo网站-电影数据分类，网址：/guide/demo/genremoviespage1.html，大家可以对比一下上面常见的网站数据*敏*感*词*看这个网站，是不是很像？?

　　示例网站截图（带有网站数据结构标签）

　　如果我们不使用工具并手动复制完成数据采集，我们会这样做：

　　在浏览器中打开此网站。复制第一部电影的数据：标题肖申克的救赎类型 *敏*感*词*分数9.2 发行年份 1994 时间 142 分钟。粘贴到 Excel 中，另存为 5 列。重复上述步骤 2，直到复制第一页上 3 部电影的数据。在翻页区点击“下一页”链接，重复步骤2、3，然后再次点击“下一页”，以此类推，直到到达最后一页（最后一页没有“下一页”链接）。

　　那么如何使用优采云工具呢？还记得第一篇文章中提到的优采云采集核心原则吗？

　　优采云采集的核心原理是：模拟人们浏览网页和复制数据的行为，通过记录和模拟人们的一系列上网行为，代替人眼浏览网页，手动复制网页数据代替人，从而将网页中的采集数据自动化，然后通过不断重复一系列设定的动作过程自动采集大量数据。

　　你可能已经想好了怎么做，别着急，让我们试着把我们的想法画成一个流程图，它应该是这样的：

　　让我解释一下这个流程图的具体步骤：

　　蓝色方块代表一些步骤，黑色圆角矩形线框代表我们要重复的一个或多个步骤。

　　打开这个网站的分类数据录入页面，就是刚才的示例URL。接下来是需要重复的步骤：循环点击下一页，黑色矩形线框内的部分需要重复。它收录另一个需要重复的步骤：循环播放每部电影。同样，让我们看看里面。有一个蓝色的步骤：提取每个字段的数据。这就是我们现在需要做的，让优采云工具自动提取每个字段。执行完最后一个蓝色步骤后，需要重复执行此蓝色步骤，直到自动提取出第一页三部电影的数据。至此，“循环每部电影”的步骤就完成了。然后我们执行下面的蓝色步骤：点击下一页，所以网页会跳转到第2页，

　　用优采云工具采集仔细对比手动复制数据的4个步骤和流程图，你会发现它们非常相似，可以说是完全一样的过程。这再次说明了优采云像机器人一样，模拟人类思维和上网、复制数据的过程。虽然每个网站都不一样，但好消息是：任何复杂的网站都可以用这个简单的思路来做，想想人家是怎么做的，然后在优采云中设置一个对应的工作流程可以实现任意网站的采集。这就是优采云能够不断变化地适应采集any网站的秘诀。

　　看到这里，也许你已经迫不及待想要实际操作它来验证我们的想法了。我们来看看如何实际操作它：

　　打开优采云采集器，点击“自定义采集”按钮→点击左上角“新建任务”按钮进入任务配置页面，然后输入网址（/ guide/demo/genremoviespage1.html) → 保存URL，系统会进入工艺设计页面并自动打开输入的URL。

　　操作录屏 - 第一步

　　2. 网页打开后，随着鼠标的移动，会出现蓝色背景来表示内容。优采云内置了专门为采集数据开发的浏览器。除了像其他浏览器一样显示网页外，还增加了很*敏*感*词*来支持采集，其中之一就是当鼠标移到不同的内容上时，对应的内容会自动标记为蓝色背景。当鼠标点击时，该区域将被选中并标为绿色，并弹出操作提示框。这里优采云已经自动识别出选中区域收录多个数值字段（子元素），并用红色虚线框标记（预选的意思），我们点击第一个选项“选择子元素”，那么预选的多个数据字段将被正式选中并标记为绿色，并且这些字段也将显示在提示界面的表格中。. 然后优采云提醒我们：找到了3组相似元素，也就是自动找到了另外2部电影的数据，也是用红色虚线框预选的，我们选择了第一个选项“全选” ，然后选择所有电影数据。

　　操作录屏 - 步骤 2

　　在第二步中，我们接触到了几个新的东西：子元素、智能提示框、各种颜色的选择提示。如果您有兴趣，可以阅读下面的详细说明。当然也可以直接跳到第3步操作。

　　智能工具提示：

　　为了记录人的步数采集数据，优采云会在用户选择要操作的网页内容时，让用户选择要进行的操作。例如，如果用户选择了一个链接，他可以选择提取该链接。文字、URL 链接、或点击此链接等。优采云的智能提示不仅可以让用户选择操作，还可以为用户预测最有可能进行的下一步操作。通过网页数据的智能分析，优采云会自动发现数据字段和相似数据项，从而指导用户操作。4是不是4很聪明，很贴心？

　　选择提示颜色：

　　蓝色表示鼠标当前位于哪个内容区域。

　　绿色表示我们点击选中的内容。

　　红色虚线表示系统智能识别并预测您要选择的内容。

　　子元素：

　　当我们选择一个收录多个数据字段的区域时，优采云指的是我们选择的区域为一个“元素（English Element，这是一个技术术语）”，每个数据字段称为一个“子”元素，一个元素可能收录多个“子元素”。

　　3. 我们已经选择了上一步中的所有数据。在决定采集这些字段之前，让我们先检查一下表格。您会发现标题本身也被提取为字段。其实我们只需要真正的Title，不需要标题，所以我们可以直接删除提示框表单中的“字段1”，其他几个冗余字段同理删除，然后修改我们想要的字段的字段名. 单击采集确认数据字段。

　　操作录屏 - 步骤 3

　　4.我们现在采集第一页的所有数据，一共3页，然后我们设置翻页，点击下面的“下一页”按钮，优采云会自动识别这是下一页链接，我们选择“循环点击下一页”选项，系统会翻页，采集每一页直到最后一页。点击开始采集，在弹出的窗口中选择“开始本地采集”，会打开一个窗口继续采集。

　　操作录屏-第四步

　　概括：

　　恭喜！您已成功采集电影的所有数据网站，并且以同样的方式您将能够采集任何收录列表、表格和页面的网站，你在采集的路上又取得了一个里程碑，未来我们会继续学习更多的技能，一步步成为采集的大神。

　　如果您有任何问题或想法想与我分享，请在下面的评论部分留言。也可以关注我的知乎与我互动：点击关注“刘宝强的知乎”。同时，欢迎关注我的知乎专栏，获取新的文章通知：点击关注“小白的数据梦工厂”

0

2022-04-18

网站内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集(这是快速入门爬虫1-0基础采集入门知识学习)

0 个评论

发起人

AI时代内容工厂

网站内容采集(这是快速入门爬虫1-0基础采集入门知识学习)

0 个评论

发起人

相关问题