网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))

优采云发布时间: 2022-01-31 04:13

　　1、第三方库导入

from bs4 import BeautifulSoup # 解析网页

import re # 正则表达式，进行文字匹配

import urllib.request,urllib.error # 通过浏览器请求数据

import sqlite3 # 轻型数据库

import time # 获取当前时间

　　2、程序运行main函数

　　爬取过程主要包括声明爬取网页->爬取网页数据并解析->保存数据

def main():

#声明爬取网站

baseurl = "https://www.bilibili.com/v/popular/rank/all"

#爬取网页

datalist = getData(baseurl)

# print(datalist)

#保存数据

dbname = time.strftime("%Y-%m-%d", time.localtime())

dbpath = "BiliBiliTop100 " + dbname

saveData(datalist,dbpath)

　　(1）爬取过程中使用的技术是：伪装成浏览器请求数据；

　　(2）解析爬取网页源码时：使用Beautifulsoup解析出需要的数据，使用re正则表达式匹配数据；

　　(3）保存数据的时候，考虑到B站的排名每天都在刷新，可以用当前日期保存数据库名。

　　3、程序运行结果

　　数据库中收录的数据有：排名、视频链接、标题、播放量、评论量、作者、综合评分。

　　4、程序源代码

<p>

from bs4 import BeautifulSoup #解析网页

import re # 正则表达式，进行文字匹配

import urllib.request,urllib.error

import sqlite3

import time

def main():

#声明爬取网站

baseurl = "https://www.bilibili.com/v/popular/rank/all"

#爬取网页

datalist = getData(baseurl)

# print(datalist)

#保存数据

dbname = time.strftime("%Y-%m-%d", time.localtime())

dbpath = "BiliBiliTop100 " + dbname

saveData(datalist,dbpath)

#re正则表达式

findLink =re.compile(r'

0

2022-01-31

网页视频抓取脚本

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))

0 个评论

发起人

AI时代内容工厂

网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))

0 个评论

发起人

相关问题