如何抓取网页视频软件(爬取抖音网页版的视频数据!(一)吧)

优采云 发布时间: 2022-04-12 13:04

  如何抓取网页视频软件(爬取抖音网页版的视频数据!(一)吧)

  如何通过Python爬取网页抖音热门视频,相信很多没有经验的人对此束手无策。为此,本文总结了问题的原因和解决方法。通过这个文章希望你能解决这个问题。

  前言

  抖音短视频相信大家都听说过,也不陌生吧?您可以看到大量涵盖各个行业的短视频。个人觉得抖音有毒,刷刷刷停不下来,凌晨4点了。今天就带大家爬取抖音网页版的视频数据!看一眼

  1、网页属性系统分析

  2、定期提取数据(难度)

  3、保存大量音频数据

  环境介绍:

  蟒蛇3.6

  pycharm

  要求

  关于

  爬行动物的总体思路

  1、分析目标网页,确定爬取的url路径,以及headers参数

  2、发送请求——请求模拟浏览器发送请求并获取响应数据

  3、解析数据——正则表达式

  4、保存数据——保存到目标文件夹

  

  步:

  1、导入工具

  base_url = 'http://douyin.bm8.com.cn/d_1.html'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

  2、分析目标网页,确定爬取的url路径,headers参数

  base_url = 'http://douyin.bm8.com.cn/d_1.html'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

  

  3、发送请求——请求模拟浏览器发送请求并获取响应数据

  response = requests.get(url=base_url, headers=headers)

html_data = response.text

  4、解析数据——正则表达式

  pattern = re.compile('onclick="open1\(\'(.*?)\',\'(.*?)\',\'\'\)')

result = pattern.findall(html_data)

print(result)

  5、构建一个for循环

  for page in range(8, 10):

    print('===================正在取第{}页数据================='.format(page))

    # 1、分析目标网页,确定爬取的url路径,headers参数

    base_url = 'http://douyin.bm8.com.cn/d_{}.html'.format(page)

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

  6、处理文件名中的非法字符

  def change_title(title):

    pattern = re.compile(r"[\/\\\:\*\?\"\\|]")  # '/ \ : * ? ">

  7、保存数据 -- 保存到目标文件夹

  for title, url in result:

        # 请求抖音视频数据

        data = requests.get(url=url, headers=headers).content

        new_title = change_title(title)

        with open('videos\\' + new_title + '.mp4', mode='wb') as f:

            f.write(data)

            print('保存完成:', title)

  

  看完以上内容,你是否掌握了如何通过Python爬取网络抖音热门视频的方法呢?如果您想学习更多技能或想了解更多相关内容,请关注易宿云行业资讯频道,感谢您的阅读!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线