网页爬虫抓取百度图片(什么是爬虫爬虫，即网络上爬行的一直蜘蛛？)

优采云发布时间: 2022-03-15 22:06

　　爬虫基础了解什么是爬虫

　　爬虫，即网络爬虫，可以理解为在互联网上爬行的蜘蛛。互联网就像一张大网，爬虫就是在这张网上四处爬行的蜘蛛。如果遇到资源，就会被抢。你想抢什么？由你来控制它。

　　例如，它正在抓取网页。在这个网页中，它找到了一条路，这条路实际上是一个指向网页的超链接。然后它可以爬到另一个网站来获取数据。这样一来，整个互联网络对这只蜘蛛来说触手可及，分分钟爬下来也不是问题。

　　浏览网页的过程

　　在用户浏览网页的过程中，我们可能会看到很多漂亮的图片，比如我们会看到几张图片和百度搜索框，这个过程其实就是用户输入网址后，经过DNS服务器，找到服务器主机, 向服务器发送请求，服务器解析后向用户浏览器发送HTML、JS、CSS等文件。浏览器解析后，用户可以看到各种图片。

　　因此，用户看到的网页本质上是由 HTML 代码组成的，爬虫爬取这些内容。通过对这些HTML代码进行分析和过滤，实现图片、文字等资源的获取。

　　网址的含义

　　URL，即Uniform Resource Locator，也就是我们所说的网站，Uniform Resource Locator是可以从互联网上获取的资源的位置和访问方式的简明表示，是互联网上标准资源的地址. Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应该如何处理它的信息。

　　URL的格式由三部分组成：

　　第一部分是协议（或服务模式）。第二部分是存储资源的主机的 IP 地址（有时是端口号）。第三部分是宿主资源的具体地址，如目录、文件名等。

　　爬虫爬取数据时，必须有目标URL才能获取数据。因此，它是爬虫获取数据的基本依据。准确理解其含义对爬虫的学习很有帮助。

　　环境配置

　　学习Python当然少不了环境的配置。一开始我用的是Notepad++，但是发现它的提示功能太弱了，所以我用的是Windows下的PyCharm，Linux下的Eclipse for Python，还有几个优秀的IDE，可以参考这个文章IDE推荐用于学习 Python。好的开发工具是进步的动力，希望你能找到适合自己的IDE

0

2022-03-15

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(什么是爬虫爬虫，即网络上爬行的一直蜘蛛？)

0 个评论

发起人