网页抓取数据百度百科(Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛))

优采云 发布时间: 2021-11-25 03:14

  网页抓取数据百度百科(Python爬虫即使用Python程序开发的网络爬虫(网页蜘蛛))

  Python爬虫是使用Python程序开发的网络爬虫(网络蜘蛛、网络机器人)。它是按照一定的规则自动抓取万维网上信息的程序或脚本。通俗的说就是通过程序在网页上获取你想要的数据,也就是自动抓取数据。

  Python爬虫是使用Python程序开发的网络爬虫(网络蜘蛛、网络机器人)。它是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。其实通俗点说就是通过程序获取网页上你想要的数据,也就是自动抓取数据。

  

  Python爬虫架构

  Python爬虫架构主要由五部分组成,分别是调度器、URL管理器、网页下载器、网页解析器和应用程序(抓取有价值的数据)。调度器:相当于一台电脑的CPU,主要负责URL管理器、下载器、解析器之间的调度协调。

  URL管理器:包括要爬取的URL地址和已经爬取的URL地址,防止重复爬取URL和循环爬取URL。URL管理器的实现主要有三种方式,分别是通过内存、数据库、缓存数据库来实现。

  网页下载器:通过传入URL地址下载网页,并将网页转换为字符串。网页下载器有urllib2(Python官方基础模块),包括登录、代理、cookie、请求(第三方包)

  网页解析器:解析一个网页字符串,可以根据我们的需求提取出我们有用的信息,也可以按照DOM树的解析方式进行解析。网页解析器有正则表达式(直观上就是通过模糊匹配将网页转成字符串提取有价值的信息。当文档比较复杂时,这种方法提取数据会很困难)、html。parser(Python内置)、beautifulsoup(第三方插件,可以使用Python内置的html.parser进行解析,也可以使用lxml进行解析,比其他的更强大)、lxml(第三-party插件,可以解析xml和HTML),html.parser,beautifulsoup和lxml都是以DOM树的方式解析的。

  应用程序:它是由从网页中提取的有用数据组成的应用程序。

  爬虫可以做什么?

  可以使用爬虫来爬取图片、爬取视频等,你想爬取的数据,只要能通过浏览器访问数据,就可以通过爬虫获取。

  爬虫的本质是什么?

  模拟浏览器打开网页,获取网页中我们想要的部分数据

  在浏览器中打开网页的过程:

  当你在浏览器中输入地址时,通过DNS服务器找到服务器主机,并向服务器发送请求。服务端解析后,将结果发送到用户浏览器,包括html、js、css等文件内容,浏览器解析出来,最后呈现给用户在浏览器上看到的结果

  因此,用户看到的浏览器的结果是由 HTML 代码组成的。我们的爬虫就是获取这些内容,通过对html代码的分析过滤,从中获取我们想要的资源。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线