抓取网页新闻(7Python爬虫架构主要由五个部分组成的一个调度器)
优采云 发布时间: 2021-10-22 11:17抓取网页新闻(7Python爬虫架构主要由五个部分组成的一个调度器)
7
Python爬虫架构主要由五部分组成,分别是调度器、URL管理器、网页下载器、网页解析器和应用程序(抓取有价值的数据)。
调度器:相当于一台电脑的CPU,主要负责URL管理器、下载器、解析器之间的调度协调。
URL管理器:收录要爬取的URL地址和已经爬取的URL地址,防止重复爬取URL和爬取URL循环。URL管理器的实现主要有三种方式,分别是通过内存、数据库、缓存数据库来实现。
网页下载器:通过传入URL地址下载网页,并将网页转换为字符串。网页下载器有urllib2(官方Python基础模块),包括登录、代理、cookie、请求(第三方包)
网页解析器:解析一个网页字符串,可以根据我们的需求提取出我们有用的信息,或者按照DOM树的分析方法进行解析。网页解析器有正则表达式(直观上就是通过模糊匹配将网页转成字符串提取有价值的信息。当文档比较复杂时,这种方法提取数据会非常困难)、html。parser(Python内置)、beautifulsoup(第三方插件,可以使用Python内置的html.parser进行解析,也可以使用lxml进行解析,比其他的更强大)、lxml(第三方插件,可以解析xml和HTML),html.parser,beautifulsoup和lxml都是以DOM树的方式解析的。
应用程序:它是由从网页中提取的有用数据组成的应用程序。
用一张图来解释调度器坐标是如何工作的:
图片整理自网络,侵删。