抓取网页音频(热门频道2.打开开发者模式,抓取全部热门音频频道信息)
优采云 发布时间: 2021-10-26 19:03抓取网页音频(热门频道2.打开开发者模式,抓取全部热门音频频道信息)
这次的数据量在70万左右。音频数据包括音频下载地址、频道信息、简介等,数量非常多。
一、简介
这次爬取的是喜马拉雅热门栏目下所有电台的各个频道的信息以及频道中各个音频数据的各种信息,然后将爬取到的数据保存到mongodb中供后续使用。这次的数据量在70万左右。音频数据包括音频下载地址、频道信息、简介等,数量非常多。
昨天,我迎来了人生中的第一次面试。另一方是一家人。我打算大二的暑假去实习。他们要求爬取音频数据,所以我会分析喜马拉雅的音频数据爬下来。目前我还在等待三方,或者通知最后的采访消息。(因为能得到一定程度的认可,不管成功与否,我都很开心)
二:运行环境三:案例分析
1. 首先进入这个爬虫的主页面,每页可以看到12个频道,每个频道下面有很多音频,有些频道有很多标签。爬取方案:循环84个页面,解析每个页面后,抓取每个频道的名称、图片链接、频道链接保存到mongodb。
热门频道
2.打开开发者模式,分析页面,很快就可以得到你想要的数据的位置了。以下代码实现了对所有热门频道信息的抓取,可以保存在mongodb中。
start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
for start_url in start_urls:
html = requests.get(start_url, headers=headers1).text
soup = BeautifulSoup(html, 'lxml')
for item in soup.find_all(class_="albumfaceOutter"):
content = {
'href': item.a['href'],
'title': item.img['alt'],
'img_url': item.img['src']
}
print(content)
分析通道
3. 下面开始获取各个通道的所有音频数据。美国频道的链接是之前解析页面得到的。比如我们进入这个链接后分析页面结构。可以看到,每个音频都有一个特定的ID,这个ID可以在一个div中的一个属性中获取。使用 split() 和 int() 转换为单独的 ID。
频道页面分析
4. 然后点击一个音频链接,进入开发者模式,刷新页面点击XHR,然后点击一个json链接,可以看到这个收录了音频的所有详细信息。
html = requests.get(url, headers=headers2).text
numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
for i in numlist:
murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
html = requests.get(murl, headers=headers1).text
dic = json.loads(html)
音频页面分析
5. 上面只是解析了一个频道主页面上的所有音频信息,但实际上该频道的音频链接有很多分页。
html = requests.get(url, headers=headers2).text
ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
if len(ifanother):
num = ifanother[0]
print('本频道资源存在' + num + '个页面')
for n in range(1, int(num)):
print('开始解析{}个中的第{}个页面'.format(num, n))
url2 = url + '?page={}'.format(n)
# 之后就接解析音频页函数就行,后面有完整代码说明
分页
6.所有代码
完整代码地址/rieuse/learnPython
__author__ = '布咯咯_rieuse'
import json
import random
import time
import pymongo
import requests
from bs4 import BeautifulSoup
from lxml import etree
clients = pymongo.MongoClient('localhost')
db = clients["XiMaLaYa"]
col1 = db["album"]
col2 = db["detaile"]
UA_LIST = [] # 很多User-Agent用来随机使用可以防ban,显示不方便不贴出来了
headers1 = {} # 访问网页的headers,这里显示不方便我就不贴出来了
headers2 = {} # 访问网页的headers这里显示不方便我就不贴出来了
def get_url():
start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
for start_url in start_urls:
html = requests.get(start_url, headers=headers1).text
soup = BeautifulSoup(html, 'lxml')
for item in soup.find_all(class_="albumfaceOutter"):
content = {
'href': item.a['href'],
'title': item.img['alt'],
'img_url': item.img['src']
}
col1.insert(content)
print('写入一个频道' + item.a['href'])
print(content)
another(item.a['href'])
time.sleep(1)
def another(url):
html = requests.get(url, headers=headers2).text
ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
if len(ifanother):
num = ifanother[0]
print('本频道资源存在' + num + '个页面')
for n in range(1, int(num)):
print('开始解析{}个中的第{}个页面'.format(num, n))
url2 = url + '?page={}'.format(n)
get_m4a(url2)
get_m4a(url)
def get_m4a(url):
time.sleep(1)
html = requests.get(url, headers=headers2).text
numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
for i in numlist:
murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
html = requests.get(murl, headers=headers1).text
dic = json.loads(html)
col2.insert(dic)
print(murl + '中的数据已被成功插入mongodb')
if __name__ == '__main__':
get_url()
7. 如果改成异步形式,可以更快,改成下面这样就行了。我试图每分钟比正常情况多获得近 100 条数据。此源代码也在 github 中。
异步
五:总结
这次捕获的数据量约为700,000。这个数据以后可以研究很多,比如音量排行,时间段排行,声道音频数等等。未来我会继续学习使用科学计算和绘图工具进行数据分析和清理。
如果您在学习过程中遇到任何问题或者想获取学习资源,欢迎加入学习交流群
626062078,一起学Python吧!