网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))
优采云 发布时间: 2022-01-31 04:13网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))
1、第三方库导入
from bs4 import BeautifulSoup # 解析网页
import re # 正则表达式,进行文字匹配
import urllib.request,urllib.error # 通过浏览器请求数据
import sqlite3 # 轻型数据库
import time # 获取当前时间
2、程序运行main函数
爬取过程主要包括声明爬取网页->爬取网页数据并解析->保存数据
def main():
#声明爬取网站
baseurl = "https://www.bilibili.com/v/popular/rank/all"
#爬取网页
datalist = getData(baseurl)
# print(datalist)
#保存数据
dbname = time.strftime("%Y-%m-%d", time.localtime())
dbpath = "BiliBiliTop100 " + dbname
saveData(datalist,dbpath)
(1)爬取过程中使用的技术是:伪装成浏览器请求数据;
(2)解析爬取网页源码时:使用Beautifulsoup解析出需要的数据,使用re正则表达式匹配数据;
(3)保存数据的时候,考虑到B站的排名每天都在刷新,可以用当前日期保存数据库名。
3、程序运行结果
数据库中收录的数据有:排名、视频链接、标题、播放量、评论量、作者、综合评分。
4、程序源代码
<p>
from bs4 import BeautifulSoup #解析网页
import re # 正则表达式,进行文字匹配
import urllib.request,urllib.error
import sqlite3
import time
def main():
#声明爬取网站
baseurl = "https://www.bilibili.com/v/popular/rank/all"
#爬取网页
datalist = getData(baseurl)
# print(datalist)
#保存数据
dbname = time.strftime("%Y-%m-%d", time.localtime())
dbpath = "BiliBiliTop100 " + dbname
saveData(datalist,dbpath)
#re正则表达式
findLink =re.compile(r'