python抓取动态网页(如何爬取动态网页动态加载出来的我们可以直接使用一些开发者工具)
优采云 发布时间: 2022-01-28 07:27python抓取动态网页(如何爬取动态网页动态加载出来的我们可以直接使用一些开发者工具)
好久没有更新Python相关的内容了。本专题主要讲Python在爬虫中的应用,包括爬取和处理。
第二节,我们介绍如何爬取动态网页
动态网页是指通过js动态加载的网页内容
我们可以直接使用一些开发者工具来查看
这里我使用谷歌浏览器的开发者工具
开发环境
操作系统:windows 10
Python 版本:3.6
爬网模块:请求
解析网页模块:json
模块安装
pip3 安装请求
网页分析
我们使用豆瓣电影页面开始分析
#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0
因为是动态加载的,所以我们无法通过get方法直接获取网页的内容。
当我们点击加载更多时,我们可以通过开发者工具的Network选项中的XHR来获取动态加载的js
打开获取的连接
%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20
我们可以找到连接规律,即page_limit和page_start
可以看到打开的内容是json格式
这里我们构建一个连接,从第一部电影开始并显示 100
%E7%83%AD%E9%97%A8&sort=推荐&page_limit=100&page_start=0
对于JSON解析,我们可以先用一个网上的网站来查看
在这里可以看到收录以下信息
评分 电影名称 电影豆瓣链接 封面地址 代码介绍
这是一行一行的代码
1. 导入相关模块
导入请求导入 json
2. 使用请求模块打开并获取网页内容
r = requests.get(url,verify=False)content=r.content
3. 使用 json.load 将 json 格式转换为 python 字典格式
这时候就可以使用字典的相关方法来处理网页了。
结果=json.loads(content)tvs=result['subjects']
4. 获取相关信息并存入字典
结果
我们可以选择将获取的数据放入数据库
源位置