网页视频抓取脚本(python爬虫用户信息怎么扩展到抖音?经验分享)
优采云 发布时间: 2021-12-05 06:04网页视频抓取脚本(python爬虫用户信息怎么扩展到抖音?经验分享)
最近在学习python爬虫,想爬取采集抖音用户信息,因为看到相关爬虫帖子有这个需求,心血来潮,分享一下经验,整理一下思路道路。首先是看b站的一段爬虫短视频,脑王的插件,通过修改fdder函数将脑王的json数据包保存到本地,用python脚本循环读取数据包,然后自动打开浏览器搜索问题。现在我想把这个想法扩展到 抖音 这里。
首先安装最新的fidder,抖音用户的数据包传输协议是https。需要下载fidder证书并安装到手机或者安卓模拟器上。我用的是模拟器,然后把安卓模拟器的生成{over}{filter}设置为电脑的IP。现在模拟器的所有网络请求都已经被fidder获取到了,现在我们要抓取数据包,分析数据包,推荐一个解析json包的URL。它可以非常清楚地显示非常复杂和困难的数据部分。在模拟器中刷入json数据包的时候,我会一一复制出来。看一看,图片里有网址。
接下来,我想出了一个方法来保存这个数据包。重点是修改fidder函数。做爬虫和插件的时候经常用到fdder工具。我特地学习了这个fidder的使用。修改 fiiderscript。这个收录用户信息的json数据包的请求URL和主机是一样的。使用此修改后的函数将其保存到本地文件夹。
fidder函数本地保存的数据只能覆盖不能添加,所以只能在脚本循环中读取,所以用python写一个脚本,分析读取的数据,保存到本地数据库中。
现在只是编写模拟手动笔画的脚本抖音的最后一步。如果要多开几个,用模拟器保存数据会更快,所以写一个分辨率最小的。320 *480的分辨率节省资源,需要进入个人主页抓取用户信息。思路是在抖音中向上滑动,识别是广告还是直播,还是广告然后往下滑,而不是点击头像,延迟返回,然后循环。打包成apk安装在模拟器上进行真机测试!速度还不错。继续优化脚本,设置清除缓存功能。如果缓存太多,会很卡。
其实在抓包的过程中还有很多有意思的东西,比如没有水印的视频链接,可以采集,哈哈。还有一些细节问题,没有写清楚。有什么问题可以留言,我会认真解答。
最后附上百度云链接打包附件代码:/s/13ygH81Pf780HR1Po_vgFRg 密码:hzn5。
这个帖子也发在我的爱和我的个人公众号:pythontest,标题一样,以后可能会同步。