网页爬虫抓取百度图片(什么是爬虫爬虫,即网络上爬行的一直蜘蛛?)
优采云 发布时间: 2021-12-16 04:35网页爬虫抓取百度图片(什么是爬虫爬虫,即网络上爬行的一直蜘蛛?)
1、什么是爬虫
爬虫是一种网络爬虫。大家可以把它理解为在互联网上爬行的蜘蛛。互联网就像一个大网,爬虫就是在这个网上爬来爬去的蜘蛛。如果它遇到资源,那么它会被爬下来。你想爬什么?由您来控制它。
比如它在爬一个网页,他在这个网上找到了一条路,其实就是一个网页的超链接,然后就可以爬到另一个网页上获取数据了。这样一来,整个相连的网都在这蜘蛛触手可及的范围内,分分钟爬下来也不成问题。
2、浏览网页的过程
当用户浏览网页时,我们可能会看到很多漂亮的图片,比如我们会看到几张图片和百度搜索框。这个过程实际上是在用户输入URL,通过DNS服务器寻找服务器主机之后。向服务器发送请求。服务器解析后,将浏览器的HTML、JS、CSS等文件发送给用户。浏览器解析出来,用户可以看到各种图片。
因此,用户看到的网页本质上都是由HTML代码组成的,爬虫爬取了这些内容。通过对这些HTML代码进行分析和过滤,可以获得图片、文字等资源。
3、URL的含义
URL,即统一资源定位符,也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示,是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应如何处理它的信息。
URL格式由三部分组成:
① 第一部分是协议(或称服务方式)。
②第二部分是收录资源的主机的IP地址(有时也包括端口号)。
③第三部分是宿主机资源的具体地址,如目录、文件名等。
爬虫在爬取数据时,必须要有目标网址才能获取数据。因此,它是爬虫获取数据的基本依据。准确理解其含义对爬虫学习有很大帮助。
4、环境配置
学习Python,当然少不了环境的配置。一开始用的是Notepad++,但是发现它的提示功能太弱了。所以,我在 Windows 下使用 PyCharm,在 Linux 下使用 Eclipse for Python。有几个优秀的IDE,可以参考这个文章学习Python推荐的IDE。好的开发工具是前进的动力。我希望你能找到适合你的 IDE。
知识点补充:
爬虫和爬虫的基本逻辑是什么
“爬行动物”是一个形象术语。互联网就像一个大网,爬虫就是在这个大网上爬行的程序或脚本。如果您遇到错误(资源),请获取或下载所需的资源。这个资源通常是网页、文件等,你可以通过资源中的url链接继续抓取这些链接的资源。
您也可以使用爬虫来模拟我们正常的上网行为。打开网页,分析网页内容,得到我们想要的。