网页视频抓取软件 格式工厂(一个.get(网页地址)第三步和requests哪个好?)
优采云 发布时间: 2022-01-01 05:14网页视频抓取软件 格式工厂(一个.get(网页地址)第三步和requests哪个好?)
通过前面几节课的学习,我们大概已经学会了如何通过urllib模块获取数据,解析数据,保存数据,得到我们想要的数据。今天给大家介绍一个Python爬虫获取数据。方法请求库。那么哪个更好,urllib 或请求? urllib 和请求有什么区别?
1.如何安装requests库
我们已经讲解了Python内置的urllib模块,用于访问网络资源。但是使用起来比较麻烦,缺少很多实用的高级功能。
更好的解决方案是使用请求。是一个Python第三方库,特别方便处理URL资源。
requests库的安装和安装其他第三方应用一样(如下图):
2.如何使用请求库。
我们以简单抓取百度网页()为例进行操作:
第一步是导入requests库
第二步是发起请求。
首先我们需要确定请求的类型。最常见的请求方法是 GET 和 POST。我们可以通过右键查看-network-headers-Request Method,看到这个页面的请求方法是get
所以我们的请求格式是:
requests.get(网址)
第三步,获取网页内容。
首先,我们需要确定我们获取的是什么类型的网页。也可以右击-network-headers-Content-Type查看网页内容为文本类型
所以我们得到的网页的基本格式是:
响应文本
可以输出如下图所示的网页内容:
第四步是存储网页信息。
基本格式为:
以打开(保存文件名,读写模式,编码=“utf-8”)为变量:
Variables.write(网页内容)
以上是关于requests的用法,大家可以结合之前学过的内容,想想urllib和requests哪个更方便,反爬虫机制如何使用requests获取内容信息网站,下一课,urllib和requests有什么区别? urllib 和请求哪个更好。