抓取网页新闻(7Python爬虫架构主要由五个部分组成的一个调度器)

优采云发布时间: 2021-10-22 11:17

　　7

　　Python爬虫架构主要由五部分组成，分别是调度器、URL管理器、网页下载器、网页解析器和应用程序（抓取有价值的数据）。

　　调度器：相当于一台电脑的CPU，主要负责URL管理器、下载器、解析器之间的调度协调。

　　URL管理器：收录要爬取的URL地址和已经爬取的URL地址，防止重复爬取URL和爬取URL循环。URL管理器的实现主要有三种方式，分别是通过内存、数据库、缓存数据库来实现。

　　网页下载器：通过传入URL地址下载网页，并将网页转换为字符串。网页下载器有urllib2（官方Python基础模块），包括登录、代理、cookie、请求（第三方包）

　　网页解析器：解析一个网页字符串，可以根据我们的需求提取出我们有用的信息，或者按照DOM树的分析方法进行解析。网页解析器有正则表达式（直观上就是通过模糊匹配将网页转成字符串提取有价值的信息。当文档比较复杂时，这种方法提取数据会非常困难）、html。parser（Python内置）、beautifulsoup（第三方插件，可以使用Python内置的html.parser进行解析，也可以使用lxml进行解析，比其他的更强大）、lxml（第三方插件，可以解析xml和HTML），html.parser，beautifulsoup和lxml都是以DOM树的方式解析的。

　　应用程序：它是由从网页中提取的有用数据组成的应用程序。

　　用一张图来解释调度器坐标是如何工作的：

　　图片整理自网络，侵删。

0

2021-10-22

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(7Python爬虫架构主要由五个部分组成的一个调度器)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(7Python爬虫架构主要由五个部分组成的一个调度器)

0 个评论

发起人

相关问题