网页抓取数据百度百科(Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛）)

优采云发布时间: 2021-11-25 03:14

　　Python爬虫是使用Python程序开发的网络爬虫（网络蜘蛛、网络机器人）。它是按照一定的规则自动抓取万维网上信息的程序或脚本。通俗的说就是通过程序在网页上获取你想要的数据，也就是自动抓取数据。

　　Python爬虫是使用Python程序开发的网络爬虫（网络蜘蛛、网络机器人）。它是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。其实通俗点说就是通过程序获取网页上你想要的数据，也就是自动抓取数据。

　　Python爬虫架构

　　Python爬虫架构主要由五部分组成，分别是调度器、URL管理器、网页下载器、网页解析器和应用程序（抓取有价值的数据）。调度器：相当于一台电脑的CPU，主要负责URL管理器、下载器、解析器之间的调度协调。

　　URL管理器：包括要爬取的URL地址和已经爬取的URL地址，防止重复爬取URL和循环爬取URL。URL管理器的实现主要有三种方式，分别是通过内存、数据库、缓存数据库来实现。

　　网页下载器：通过传入URL地址下载网页，并将网页转换为字符串。网页下载器有urllib2（Python官方基础模块），包括登录、代理、cookie、请求（第三方包）

　　网页解析器：解析一个网页字符串，可以根据我们的需求提取出我们有用的信息，也可以按照DOM树的解析方式进行解析。网页解析器有正则表达式（直观上就是通过模糊匹配将网页转成字符串提取有价值的信息。当文档比较复杂时，这种方法提取数据会很困难）、html。parser（Python内置）、beautifulsoup（第三方插件，可以使用Python内置的html.parser进行解析，也可以使用lxml进行解析，比其他的更强大）、lxml（第三-party插件，可以解析xml和HTML），html.parser，beautifulsoup和lxml都是以DOM树的方式解析的。

　　应用程序：它是由从网页中提取的有用数据组成的应用程序。

　　爬虫可以做什么？

　　可以使用爬虫来爬取图片、爬取视频等，你想爬取的数据，只要能通过浏览器访问数据，就可以通过爬虫获取。

　　爬虫的本质是什么？

　　模拟浏览器打开网页，获取网页中我们想要的部分数据

　　在浏览器中打开网页的过程：

　　当你在浏览器中输入地址时，通过DNS服务器找到服务器主机，并向服务器发送请求。服务端解析后，将结果发送到用户浏览器，包括html、js、css等文件内容，浏览器解析出来，最后呈现给用户在浏览器上看到的结果

　　因此，用户看到的浏览器的结果是由 HTML 代码组成的。我们的爬虫就是获取这些内容，通过对html代码的分析过滤，从中获取我们想要的资源。

0

2021-11-25

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛）)

0 个评论

发起人

AI时代内容工厂

网页抓取数据百度百科(Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛）)

0 个评论

发起人

相关问题