python抓取动态网页(python抓取动态网页的requests和urllib库的使用,介绍python)
优采云 发布时间: 2021-11-04 15:05python抓取动态网页(python抓取动态网页的requests和urllib库的使用,介绍python)
python抓取动态网页的requests和urllib库的使用,介绍python抓取网页的方法。入门基础的爬虫的同学可以先去看看视频课程,其实有一个网页在讲这部分知识点。这是爬取页面的代码:第一步-使用requests.get将页面抓取下来,这里需要用到网页里面的url,也就是你需要的网址(page_name,page_id),抓取工具是urllib,获取工具是python自带的httplib库。
第二步-requests.set_user_agent(user_agent),即将用户请求用代理,也就是其他的浏览器。这里使用的是谷歌浏览器(googlechrome)。第三步-使用urllib.request()将请求的请求报文转换成html报文,这个工具是可选的,可以自己用到哪里就用哪里,能有一个需要就最好有,否则后续的都可以不用。
转换成html报文,以下代码解释说明如何将请求报文转换成html报文,google浏览器的解释如下,示例代码:#coding:utf-8defpage(url):'''循环请求页面..'''returnhtml(page_name,page_id)#请求一个网页,得到请求报文returnhtml(get(url).text)如果使用httplib.urllib.request方法,就要下载相应的httplib库,如下代码,详细用法请看代码:requests+urllib=requests.get(url)第四步-urllib.request.urlopen,获取页面内容,这里下载页面的内容使用的是urllib.request.urlopen方法。
同时下载下来的内容也可以再继续用get请求。动态网页的示例:importurllib.requestimportjsonfromfake_useragentimportuseragenttry:url=''response=urllib.request.urlopen(url)try:response=json.loads(response)except:raisenotimplementedfinally:try:response=json.loads(response)except:raisenotimplementedurllib.request.urlopen(url)以上代码获取到的页面内容为:知乎是3.05.1版本app,普通用户的话要过365天才能获取到你想要的内容。