python抓取动态网页(爬取动态网页的经验分享(官方不会打我吧))
优采云 发布时间: 2022-02-26 17:24python抓取动态网页(爬取动态网页的经验分享(官方不会打我吧))
今天的主题是分享爬取动态网页的经验,以cocos论坛为例进行分享。(官方不会打我)
配置环境
为什么选择 cocos 论坛?因为我在浏览论坛的时候发现标题内容会随着滚动条的位置动态添加。
环境:python3 + 请求。还介绍了几个系统库。参考如下:
分析网页
以chrome浏览器为例,在空白处右键->勾选进入网页分析模式,在Network中选择XHR,向下滚动滚动条,观察右侧加载了哪些文件。
在网页分享模式下,点击刚才下载的文件查看内容,发现地址使用GET方式,传入页码参数。
看返回的内容是一个json字符串。
这个 json 字符串有我们想要的内容。下面我们来看看如何使用requests发送参数并返回Json结果。
只需传入一个header,告诉网页我们要根据地址接收一个json字符串。
解析json
JSON是一种可以被多种语言解析的数据存储格式,一般用于数据传输。
从上图可以看出,所有的文章列表都在topic_list的topic中,我们看看python3是如何解析的。
打开几个论坛内容就可以找到链接地址,由slug和id这两个字段拼接而成。
最后使用多线程和 csv 来存储结果。(不确定可以看前面的文章。python爬虫实战(三)不知道怎么正则呢?Xpath分分钟搞定python爬虫入门实战(二)!快!)快!快!让爬虫赢在起跑线上!多线程)
最后,看看最终的结果吧!
概括
对于动态生成的内容,我们可以在网页分享中分析下载的文件,通过requests模块模拟headers和发送参数来获取数据。
这是我学到的新技能!如有错误或其他想法,请留言!如果我学到了新东西,我会尽快与你分享!注意,不要迷路!
以上内容仅供个人学习使用,请勿用于商业用途。
我是白宇无冰,游戏开发的小红人,也玩python和shell