php 爬虫抓取网页数据(Python爬虫架构的原理及应用原理)

优采云发布时间: 2022-03-27 09:01

　　1.什么是爬虫？

　　Crawler：自动爬取互联网信息的程序，从互联网上为我们获取有价值的信息。

　　2.爬虫的原理？

　　Python爬虫架构主要由五部分组成，分别是调度器、URL管理器、网页下载器、网页解析器和应用程序（爬取有价值的数据）。

　　调度器：相当于一台计算机的CPU，主要负责调度URL管理器、下载器、解析器之间的协调。

　　URL管理器：包括要爬取的URL地址和已经爬取的URL地址，防止URL重复爬取和URL循环爬取。实现 URL 管理器的方式主要有 3 种：内存、数据库和缓存数据库。

　　网页下载器：通过传入 URL 地址下载网页并将网页转换为字符串。网页下载器有urllib2（Python官方基础模块），包括需要登录、代理和cookies、requests（第三方包）

　　网页解析器：通过解析一个网页字符串，可以根据我们的需求提取我们有用的信息，或者按照DOM树的解析方式进行解析。网页解析器有正则表达式（直观地说，就是将网页转换成字符串，通过模糊匹配提取有价值的信息，当文档比较复杂时，这种方法提取数据会很困难），html。parser（Python自带），beautifulsoup（第三方插件，可以使用Python自带的html.parser解析，也可以使用lxml，比别人更强大），lxml（第三方插件），可以解析xml和HTML），html.parser和beautifulsoup和lxml都是用DOM树的方式解析的。

　　应用程序：它是由从网页中提取的有用数据组成的应用程序。

　　3.第一个爬虫

　　导入 cookielib

　　导入 urllib2

0

2022-03-27

php 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 爬虫抓取网页数据(Python爬虫架构的原理及应用原理)

0 个评论

发起人