网页爬虫抓取百度图片(为什么使用爬虫为什么我们需要使用千磨风？（上）)

优采云发布时间: 2022-02-22 15:11

　　关键词：爬虫简介

　　千辛万苦，千锤百炼，任尔南北风，东风西风。本期文章主要讲第55天：爬虫相关知识介绍，希望对大家有所帮助。

　　由先欢

　　作为程序员，相信大家对“爬虫”这个词并不陌生。人们经常在周围提到这个词。在不知道的人眼里，他们会认为这项技术非常高端和神秘。别着急，我们的爬虫系列就带你揭开它的神秘面纱，探寻它的真面目。

　　什么是爬行动物

　　网络爬虫（也称为网络蜘蛛或网络机器人）是一种程序或脚本，它根据一定的规则自动爬取万维网上的信息。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

　　通俗地说，我们把互联网比作一个大蜘蛛网，每个站点资源都比作蜘蛛网上的一个节点。爬虫就像一只蜘蛛，按照设计好的路线和规则在这张蜘蛛网上寻找目标节点。，获取资源。

　　为什么要使用爬虫

　　为什么我们需要使用爬虫？

　　你可以想象一个场景：你很崇拜一个微博名人，你对他的微博很着迷，你想把他微博上十年的每一句话都提取出来，做成名人语录。你在这个时候做什么？手动转到 Ctrl+C 和 Ctrl+V？这种方法确实是正确的。数据量少的时候我们可以这样做，但是数据量上千的时候还需要这样做吗？

　　再想象一个场景：你想做一个新闻聚合网站，你需要每天定时去几条新闻网站获取最新消息，我们称之为RSS订阅。你定期去每个订阅网站复制新闻吗？恐怕个人很难做到这一点。

　　在以上两种场景下，使用爬虫技术可以轻松解决问题。因此，我们可以看到爬虫技术主要可以帮我们做两种事情：一是数据获取需求，主要是针对特定规则下的大量数据的获取；另一个是自动化需求，主要用于类似信息的聚合、搜索等。

　　爬行动物的分类

　　从爬取对象的角度，爬虫可以分为通用爬虫和专注爬虫。

　　通用网络爬虫，也称为Scalable Web Crawler，将爬取对象从一些*敏*感*词*URL扩展到整个Web，主要针对搜索引擎和大型Web服务商采集数据。此类网络爬虫的爬取范围和数量巨大，对爬取速度和存储空间的要求比较高，对爬取页面的顺序要求比较低。比如我们常见的百度和谷歌搜索。我们进入关键词，他们会从全网找到关键词相关的网页，并按照一定的顺序呈现给我们。

　　Focused Crawler 是指有选择地抓取与预定义主题相关的页面的网络爬虫。与一般的网络爬虫相比，聚焦爬虫只需要爬取特定的网页，爬取的广度会小很多。比如我们需要爬取东方财富网的基金数据，只需要制定规则爬取东方财富网的页面即可。

　　通俗的说，万能爬虫类似于蜘蛛，需要寻找特定的食物，但是它不知道蜘蛛网的哪个节点有它，所以只能从一个节点开始，到时候再看这个节点遇到它，如果有食物就拿食物，如果这个节点表示某个节点有食物，那么它会按照指示寻找下一个节点。网络爬虫的重点是蜘蛛知道哪个节点有食物，它只需要规划一条路线到达那个节点就可以得到食物。

　　浏览网页的过程

　　在用户浏览网页的过程中，我们可能会看到很多漂亮的图片，比如我们会看到几张图片和百度搜索框，类似下图：

　　这个过程其实就是用户输入URL后，经过DNS服务器，找到服务器主机，向服务器发送请求。服务器解析后，将html、js、css等文件发送到用户的浏览器。浏览器解析后，用户可以看到各种图片。

　　因此，用户看到的网页本质上是由 HTML 代码组成的，爬虫爬取这些内容。通过对这些HTML代码进行分析和过滤，实现图片、文字等资源的获取。

　　网址的含义

　　URL，即Uniform Resource Locator，也就是我们所说的网站，Uniform Resource Locator是对可以从互联网上获取的资源的位置和访问方式的简明表示，是互联网上标准资源的地址. Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应该如何处理它的信息。

　　URL的格式由三部分组成：

　　由于爬虫的目标是获取资源，而资源存储在某个主机上，所以爬虫在爬取数据时必须有一个目标URL来获取数据。因此，它是爬虫获取数据的基本依据。准确理解它的含义，对于爬虫的学习很有帮助。

　　爬虫的过程

　　我们下一章主要讨论焦点爬虫。焦点爬虫的工作流程如下：

　　从这个爬虫的过程中，你应该可以想到学习爬虫需要学习的关键步骤。首先，我们需要像浏览器一样请求一个URL来获取主机的资源，所以正确请求和获取内容的方法是我们研究的重点。我们获取资源后（即请求URL后得到的响应内容），需要解析响应内容，为我们获取有价值的数据。这里的分析方法是学习的重点。我们拿到数据后，接下来需要存储数据，数据的存储方式也很重要。

　　因此，我们所学的爬虫技术其实可以概括为三个基本问题：请求、解析和存储。如果掌握了这三个问题的相应解决方案，爬虫技术就掌握了。在学习爬虫的过程中，大家都会关注这三个问题，不会走弯路。

　　总结

　　本节介绍爬虫的基本概念，以便您对爬虫有一个大致的了解，以便在后续章节中学习。开胃菜吃完了，下一节就要开始饕餮盛宴了，你准备好了吗？

　　文中示例代码：

0

2022-02-22

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(为什么使用爬虫为什么我们需要使用千磨风？（上）)

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(为什么使用爬虫为什么我们需要使用千磨风？（上）)

0 个评论

发起人

相关问题