网页爬虫抓取百度图片( 网络上爬行的一直蜘蛛，互联网什么是爬虫爬虫)

优采云发布时间: 2021-11-08 04:07

　　网页爬虫抓取百度图片(

网络上爬行的一直蜘蛛，互联网什么是爬虫爬虫)

　　1.什么是爬虫

　　爬虫，或网络爬虫，可以理解为无时无刻不在网络上爬行的蜘蛛。互联网就像一个大网，爬虫就是在这个网上爬来爬去的蜘蛛。如果它遇到资源，那么它会被爬下来。你想爬什么？这取决于你来控制它。比如它在爬一个网页，他在这个网上找到了一条路，其实就是一个网页的超链接，然后就可以爬到另一个网页上获取数据了。这样一来，整个相连的网都在这只蜘蛛的触手可及的范围内，分分钟爬下来也不成问题。

　　2.浏览网页的过程

　　当用户浏览网页时，我们可能会看到很多漂亮的图片，比如我们会看到几张图片和百度搜索框。这个过程其实就是用户输入URL，通过DNS服务器找到服务器主机之后。向服务器发送请求。服务器解析后，将浏览器的HTML、JS、CSS等文件发送给用户。浏览器解析出来，用户可以看到各种图片。因此，用户看到的网页本质上是由HTML代码组成的，爬虫爬取这个内容。通过对这些HTML代码进行分析和过滤，可以获得图片、文字等资源。

　　3.URL的含义

　　URL，即统一资源定位符，也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示，是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应如何处理它的信息。

　　URL 的格式由三部分组成： ① 第一部分是协议（或称服务模式）。②第二部分是收录资源的主机的IP地址（有时包括端口号）。③第三部分是宿主机资源的具体地址，如目录、文件名等。

　　爬虫在爬取数据时，必须要有目标网址才能获取数据。因此，它是爬虫获取数据的基本依据。准确理解其含义对爬虫学习有很大帮助。

　　4. 环境配置

　　学习Python，环境配置是必不可少的。一开始我用的是Notepad++，但是发现它的提示功能太弱了，所以我在Windows下使用了PyCharm，Linux下使用了Eclipse for Python。有几个优秀的IDE，可以参考这个文章学习Python推荐的IDE。好的开发工具是一种动力。我希望你能找到适合你的 IDE。下一节，我们将正式进入Python爬虫学习的殿堂。你准备好了吗？

0

2021-11-08

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片( 网络上爬行的一直蜘蛛，互联网什么是爬虫爬虫)

0 个评论

发起人