php 爬虫抓取网页数据(Python爬虫架构的原理及应用原理)

优采云 发布时间: 2022-03-27 09:01

  php 爬虫抓取网页数据(Python爬虫架构的原理及应用原理)

  1.什么是爬虫?

  Crawler:自动爬取互联网信息的程序,从互联网上为我们获取有价值的信息。

  2.爬虫的原理?

  Python爬虫架构主要由五部分组成,分别是调度器、URL管理器、网页下载器、网页解析器和应用程序(爬取有价值的数据)。

  调度器:相当于一台计算机的CPU,主要负责调度URL管理器、下载器、解析器之间的协调。

  URL管理器:包括要爬取的URL地址和已经爬取的URL地址,防止URL重复爬取和URL循环爬取。实现 URL 管理器的方式主要有 3 种:内存、数据库和缓存数据库。

  网页下载器:通过传入 URL 地址下载网页并将网页转换为字符串。网页下载器有urllib2(Python官方基础模块),包括需要登录、代理和cookies、requests(第三方包)

  网页解析器:通过解析一个网页字符串,可以根据我们的需求提取我们有用的信息,或者按照DOM树的解析方式进行解析。网页解析器有正则表达式(直观地说,就是将网页转换成字符串,通过模糊匹配提取有价值的信息,当文档比较复杂时,这种方法提取数据会很困难),html。parser(Python自带),beautifulsoup(第三方插件,可以使用Python自带的html.parser解析,也可以使用lxml,比别人更强大),lxml(第三方插件) ,可以解析xml和HTML),html.parser和beautifulsoup和lxml都是用DOM树的方式解析的。

  应用程序:它是由从网页中提取的有用数据组成的应用程序。

  3.第一个爬虫

  导入 cookielib

  导入 urllib2

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线