抓取网页音频( 一下喜马拉雅的音频数据爬下来(一):运行环境三)
优采云 发布时间: 2021-12-09 21:19抓取网页音频(
一下喜马拉雅的音频数据爬下来(一):运行环境三)
喜马拉雅山
一、简介
这次爬取的是喜马拉雅热门栏目下所有电台的各个频道的信息以及频道中各个音频数据的各种信息,然后将爬取到的数据保存到mongodb中以备后续使用。这次的数据量在70万左右。音频资料包括音频下载地址、频道信息、简介等,种类很多。
昨天,我迎来了人生中的第一次面试。另一方是一家人。我打算大二的暑假去实习。他们要求爬取音频数据,所以我会分析喜马拉雅的音频数据爬下来。目前还在等三方,或者通知最后的采访消息。(因为能得到一定的认可,不管成功与否,我都很开心)
二:运行环境三:案例分析
1. 首先进入这个爬虫的主页面,可以看到每页有12个频道,每个频道下面有很多音频,有的频道有很多标签。爬取方案:循环84页,解析每个页面后,抓取每个频道的名称、图片链接、频道链接保存到mongodb。
热门频道
2.打开开发者模式,分析页面,很快就可以得到你想要的数据的位置了。以下代码实现抓取所有热门频道的信息,可以保存在mongodb中。
start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
for start_url in start_urls:
html = requests.get(start_url, headers=headers1).text
soup = BeautifulSoup(html, 'lxml')
for item in soup.find_all(class_="albumfaceOutter"):
content = {
'href': item.a['href'],
'title': item.img['alt'],
'img_url': item.img['src']
}
print(content)
分析通道
3. 下面开始获取各个通道的所有音频数据。美国频道的链接是之前解析页面得到的。比如我们进入这个链接后,我们分析一下页面结构。可以看出,每个音频都有一个特定的ID,可以在一个div中的一个属性中获取。使用 split() 和 int() 转换为单独的 ID。
频道页面分析
4. 然后点击一个音频链接,进入开发者模式,刷新页面点击XHR,然后点击一个json链接,可以看到这个收录了音频的所有详细信息。
html = requests.get(url, headers=headers2).text
numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
for i in numlist:
murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
html = requests.get(murl, headers=headers1).text
dic = json.loads(html)
音频页面分析
5. 上面只是解析了一个频道主页面上的所有音频信息,但实际上该频道的音频链接有很多分页。
html = requests.get(url, headers=headers2).text
ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
if len(ifanother):
num = ifanother[0]
print('本频道资源存在' + num + '个页面')
for n in range(1, int(num)+1):
print('开始解析{}个中的第{}个页面'.format(num, n))
url2 = url + '?page={}'.format(n)
# 之后就接解析音频页函数就行,后面有完整代码说明
分页
6.所有代码
完整代码地址/rieuse/learnPython
__author__ = '布咯咯_rieuse'
import json
import random
import time
import pymongo
import requests
from bs4 import BeautifulSoup
from lxml import etree
clients = pymongo.MongoClient('localhost')
db = clients["XiMaLaYa"]
col1 = db["album"]
col2 = db["detaile"]
UA_LIST = [] # 很多User-Agent用来随机使用可以防ban,显示不方便不贴出来了
headers1 = {} # 访问网页的headers,这里显示不方便我就不贴出来了
headers2 = {} # 访问网页的headers这里显示不方便我就不贴出来了
def get_url():
start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
for start_url in start_urls:
html = requests.get(start_url, headers=headers1).text
soup = BeautifulSoup(html, 'lxml')
for item in soup.find_all(class_="albumfaceOutter"):
content = {
'href': item.a['href'],
'title': item.img['alt'],
'img_url': item.img['src']
}
col1.insert(content)
print('写入一个频道' + item.a['href'])
print(content)
another(item.a['href'])
time.sleep(1)
def another(url):
html = requests.get(url, headers=headers2).text
ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
if len(ifanother):
num = ifanother[0]
print('本频道资源存在' + num + '个页面')
for n in range(1, int(num)+1):
print('开始解析{}个中的第{}个页面'.format(num, n))
url2 = url + '?page={}'.format(n)
get_m4a(url2)
get_m4a(url)
def get_m4a(url):
time.sleep(1)
html = requests.get(url, headers=headers2).text
numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
for i in numlist:
murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
html = requests.get(murl, headers=headers1).text
dic = json.loads(html)
col2.insert(dic)
print(murl + '中的数据已被成功插入mongodb')
if __name__ == '__main__':
get_url()
7.如果改成异步形式可以更快,改成下面这样就行了。我试图每分钟比正常情况多获得近 100 条数据。此源代码也在 github 中。
异步
五:总结
这次捕获的数据量约为700,000。这个数据以后可以研究很多,比如播放次数、时间段排名、频道音频音量等等。后续会继续学习使用科学计算和绘图工具进行数据分析和清洗。
捕获的数据是通道信息和通道中的每个音频特定信息。
Paste_Image.png
Paste_Image.png
贴出我的github地址,把我的爬虫代码和我学会的代码写进去,喜欢的可以点击开始关注,一起学习交流!/rieuse/learnPython