网页视频抓取软件 格式工厂( 人生苦短,我用Python前文:小白学一个万能的方法(组图) )

优采云 发布时间: 2022-02-12 03:25

  网页视频抓取软件 格式工厂(

人生苦短,我用Python前文:小白学一个万能的方法(组图)

)

  

  人生苦短,我用Python

  之前的传送门:

  小白学Python爬虫(1):开

  小白学Python爬虫(2):前期准备(一)基础类库安装)

  小白学习Python爬虫(3):前期准备(二)Linux基础介绍)

  小白学Python爬虫(4):前期准备(三)Docker基础介绍)

  小白学Python爬虫(5):前期准备(四)数据库基础)

  小白学习Python爬虫(6):前期准备(五)爬虫框架的安装)

  小白学习Python爬虫(7):HTTP基础

  小白学Python爬虫(8):网页基础

  爬虫的核心

  什么是爬虫?这很容易理解。爬虫是对网页进行爬取,按照一定的规则提取信息,并自动重复上述过程的程序。

  

  一个爬虫,第一件事就是爬取网页,这里主要是指网页的源码。网页的源代码会收录我们需要的信息,我们要做的就是从源代码中提取这些信息。

  当我们请求一个网页时,Python 为我们提供了很多库来做这件事,比如官方的 urllib,以及第三方请求,Aiohttp 等。

  我们可以使用这些库来发送 HTTP 请求并获取响应的数据。得到响应后,我们只需要解析body部分的数据就可以得到网页的源代码。

  获得源代码后,我们接下来的工作就是解析源代码并从中提取我们需要的数据。

  提取数据最基本最常用的方法就是使用正则表达式,但是这种方法比较复杂,容易出错,但是不得不说,一个写得很好的正则表达式的人是不需要下面这些解析库的包罗万象的方法。

  悄悄地说,编辑器的正则表达式写得不好,所以会用到这些第三方提供的库。

  提取数据的库有 Beautiful Soup 、 pyquery 、 lxml 等。使用这些库,我们可以高效、快速地从 HTML 中提取网页信息,例如节点属性、文本值等。

  

  从源代码中提取数据后,我们将数据保存起来,可以以各种形式保存,可以直接保存为txt、json、Excel文件等,也可以保存到数据库中,如Mysql、Oracle、 SQLServer、MongoDB 等。

  

  捕获的数据格式

  一般来说,我们爬取的是HTML网页的源代码,也就是我们可以看到的有规律、直观的网页信息。

  但是,有些信息并没有与 HTML 一起直接返回到网页中。会有各种API接口。该接口返回的数据大部分是JSON格式,部分数据格式会返回XML。有一些单独的古怪接口直接返回程序员定义的字符串。这种API数据接口需要具体问题具体分析。

  还有一些信息,比如各大图片站和视频站(比如抖音、B站),我们要爬取的信息是图片或者视频,都是二进制形式存在的,我们需要这些二进制数据被爬下来然后倾倒。

  另外,我们还可以抓取一些资源文件,比如CSS、JavaScript等脚本资源,有的还带有一些字体信息比如woff。这些信息是网页不可缺少的元素,只要浏览器可以访问,我们就可以抓取下来。

  现代前端网页抓取

  今天的核心内容就在这里!!!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线