网页爬虫抓取百度图片(什么是爬虫爬虫，即网络上爬行的一直蜘蛛？)

优采云发布时间: 2021-12-16 04:35

　　1、什么是爬虫

　　爬虫是一种网络爬虫。大家可以把它理解为在互联网上爬行的蜘蛛。互联网就像一个大网，爬虫就是在这个网上爬来爬去的蜘蛛。如果它遇到资源，那么它会被爬下来。你想爬什么？由您来控制它。

　　比如它在爬一个网页，他在这个网上找到了一条路，其实就是一个网页的超链接，然后就可以爬到另一个网页上获取数据了。这样一来，整个相连的网都在这蜘蛛触手可及的范围内，分分钟爬下来也不成问题。

　　2、浏览网页的过程

　　当用户浏览网页时，我们可能会看到很多漂亮的图片，比如我们会看到几张图片和百度搜索框。这个过程实际上是在用户输入URL，通过DNS服务器寻找服务器主机之后。向服务器发送请求。服务器解析后，将浏览器的HTML、JS、CSS等文件发送给用户。浏览器解析出来，用户可以看到各种图片。

　　因此，用户看到的网页本质上都是由HTML代码组成的，爬虫爬取了这些内容。通过对这些HTML代码进行分析和过滤，可以获得图片、文字等资源。

　　3、URL的含义

　　URL，即统一资源定位符，也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示，是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应如何处理它的信息。

　　URL格式由三部分组成：

　　① 第一部分是协议（或称服务方式）。

　　②第二部分是收录资源的主机的IP地址（有时也包括端口号）。

　　③第三部分是宿主机资源的具体地址，如目录、文件名等。

　　爬虫在爬取数据时，必须要有目标网址才能获取数据。因此，它是爬虫获取数据的基本依据。准确理解其含义对爬虫学习有很大帮助。

　　4、环境配置

　　学习Python，当然少不了环境的配置。一开始用的是Notepad++，但是发现它的提示功能太弱了。所以，我在 Windows 下使用 PyCharm，在 Linux 下使用 Eclipse for Python。有几个优秀的IDE，可以参考这个文章学习Python推荐的IDE。好的开发工具是前进的动力。我希望你能找到适合你的 IDE。

　　知识点补充：

　　爬虫和爬虫的基本逻辑是什么

　　“爬行动物”是一个形象术语。互联网就像一个大网，爬虫就是在这个大网上爬行的程序或脚本。如果您遇到错误（资源），请获取或下载所需的资源。这个资源通常是网页、文件等，你可以通过资源中的url链接继续抓取这些链接的资源。

　　您也可以使用爬虫来模拟我们正常的上网行为。打开网页，分析网页内容，得到我们想要的。

0

2021-12-16

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(什么是爬虫爬虫，即网络上爬行的一直蜘蛛？)

0 个评论

发起人