c 抓取网页数据(movie环境实验过程实验(2):尝试使用网站开放的API)
优采云 发布时间: 2022-01-11 08:15c 抓取网页数据(movie环境实验过程实验(2):尝试使用网站开放的API)
目录
实验内容
实验环境
实验过程
实验内容:
尝试使用网站开放API获取网站数据,了解网络爬虫之外获取高质量网站数据的新方法。
实验环境:
操作系统:CentOS Linux 发行版7.2.1511(核心)
实验语言:Python 3.6.5
使用的框架:请求
实验过程:1)查看豆瓣开放API:
豆瓣API开发者文档:
豆瓣开放的API有:
API.png
各个API返回的数据格式为JSON格式,不同API返回的数据项在开发者文档中有详细说明。可以通过修改请求的URL和查询参数来获取指定的数据。
2)在浏览器环境中使用API获取数据:
您可以在浏览器地址栏中输入请求URL,获取JSON格式的返回数据。输入:在地址栏中获取25部豆瓣电影TOP250电影数据,返回结果为JSON字符串,如下:
返回结果.png
通过浏览器修改URL路径和查询参数可以查看API返回的数据格式、数据项和字符编码,方便,适合界面调试。
3)编写代码以使用 API 获取数据。
在实际应用中,往往需要动态调用API获取数据。下面尝试调用程序中的API。
功能代码如下:
import requests
import json
import codecs
file = codecs.open('movie.json', 'w',encoding='utf-8')
#API
url = 'http://api.douban.com/v2/movie/top250'
# 参数列表
start=5
count=25
r = requests.get(url, params={'start': start, 'count': count})
r.encoding='UTF_8'
content=r.json()
file.write(json.dumps(content,ensure_ascii=False))
您可以通过更改API和参数列表来调用不同的API来获取目标数据。
图片[4].png
下载movie.json文件本地查看,部分结果如下:
部分结果.png