python抓取动态网页(python抓取动态网页的requests和urllib库的使用，介绍python)

优采云发布时间: 2021-11-04 15:05

　　python抓取动态网页的requests和urllib库的使用，介绍python抓取网页的方法。入门基础的爬虫的同学可以先去看看视频课程，其实有一个网页在讲这部分知识点。这是爬取页面的代码：第一步-使用requests.get将页面抓取下来，这里需要用到网页里面的url，也就是你需要的网址（page_name，page_id），抓取工具是urllib，获取工具是python自带的httplib库。

　　第二步-requests.set_user_agent(user_agent)，即将用户请求用代理，也就是其他的浏览器。这里使用的是谷歌浏览器（googlechrome）。第三步-使用urllib.request()将请求的请求报文转换成html报文，这个工具是可选的，可以自己用到哪里就用哪里，能有一个需要就最好有，否则后续的都可以不用。

　　转换成html报文，以下代码解释说明如何将请求报文转换成html报文，google浏览器的解释如下，示例代码：#coding:utf-8defpage(url):'''循环请求页面..'''returnhtml(page_name,page_id)#请求一个网页,得到请求报文returnhtml(get(url).text)如果使用httplib.urllib.request方法，就要下载相应的httplib库，如下代码，详细用法请看代码：requests+urllib=requests.get(url)第四步-urllib.request.urlopen，获取页面内容，这里下载页面的内容使用的是urllib.request.urlopen方法。

　　同时下载下来的内容也可以再继续用get请求。动态网页的示例：importurllib.requestimportjsonfromfake_useragentimportuseragenttry:url=''response=urllib.request.urlopen(url)try:response=json.loads(response)except:raisenotimplementedfinally:try:response=json.loads(response)except:raisenotimplementedurllib.request.urlopen(url)以上代码获取到的页面内容为：知乎是3.05.1版本app，普通用户的话要过365天才能获取到你想要的内容。

0

2021-11-04

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(python抓取动态网页的requests和urllib库的使用，介绍python)

0 个评论

发起人

AI时代内容工厂

python抓取动态网页(python抓取动态网页的requests和urllib库的使用，介绍python)

0 个评论

发起人

相关问题