如何抓取网页视频软件(爬取抖音网页版的视频数据!(一)吧)
优采云 发布时间: 2022-04-12 13:04如何抓取网页视频软件(爬取抖音网页版的视频数据!(一)吧)
如何通过Python爬取网页抖音热门视频,相信很多没有经验的人对此束手无策。为此,本文总结了问题的原因和解决方法。通过这个文章希望你能解决这个问题。
前言
抖音短视频相信大家都听说过,也不陌生吧?您可以看到大量涵盖各个行业的短视频。个人觉得抖音有毒,刷刷刷停不下来,凌晨4点了。今天就带大家爬取抖音网页版的视频数据!看一眼
1、网页属性系统分析
2、定期提取数据(难度)
3、保存大量音频数据
环境介绍:
蟒蛇3.6
pycharm
要求
关于
爬行动物的总体思路
1、分析目标网页,确定爬取的url路径,以及headers参数
2、发送请求——请求模拟浏览器发送请求并获取响应数据
3、解析数据——正则表达式
4、保存数据——保存到目标文件夹
步:
1、导入工具
base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
2、分析目标网页,确定爬取的url路径,headers参数
base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
3、发送请求——请求模拟浏览器发送请求并获取响应数据
response = requests.get(url=base_url, headers=headers)
html_data = response.text
4、解析数据——正则表达式
pattern = re.compile('onclick="open1\(\'(.*?)\',\'(.*?)\',\'\'\)')
result = pattern.findall(html_data)
print(result)
5、构建一个for循环
for page in range(8, 10):
print('===================正在取第{}页数据================='.format(page))
# 1、分析目标网页,确定爬取的url路径,headers参数
base_url = 'http://douyin.bm8.com.cn/d_{}.html'.format(page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
6、处理文件名中的非法字符
def change_title(title):
pattern = re.compile(r"[\/\\\:\*\?\"\\|]") # '/ \ : * ? ">
7、保存数据 -- 保存到目标文件夹
for title, url in result:
# 请求抖音视频数据
data = requests.get(url=url, headers=headers).content
new_title = change_title(title)
with open('videos\\' + new_title + '.mp4', mode='wb') as f:
f.write(data)
print('保存完成:', title)
看完以上内容,你是否掌握了如何通过Python爬取网络抖音热门视频的方法呢?如果您想学习更多技能或想了解更多相关内容,请关注易宿云行业资讯频道,感谢您的阅读!