网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))

优采云 发布时间: 2022-01-31 04:13

  网页视频抓取脚本(B站视频内容(一)_e操盘_光明网(图))

  1、第三方库导入

  

from bs4 import BeautifulSoup # 解析网页

import re # 正则表达式,进行文字匹配

import urllib.request,urllib.error # 通过浏览器请求数据

import sqlite3 # 轻型数据库

import time # 获取当前时间

  2、程序运行main函数

  爬取过程主要包括声明爬取网页->爬取网页数据并解析->保存数据

  

def main():

#声明爬取网站

baseurl = "https://www.bilibili.com/v/popular/rank/all"

#爬取网页

datalist = getData(baseurl)

# print(datalist)

#保存数据

dbname = time.strftime("%Y-%m-%d", time.localtime())

dbpath = "BiliBiliTop100 " + dbname

saveData(datalist,dbpath)

  (1)爬取过程中使用的技术是:伪装成浏览器请求数据;

  (2)解析爬取网页源码时:使用Beautifulsoup解析出需要的数据,使用re正则表达式匹配数据;

  (3)保存数据的时候,考虑到B站的排名每天都在刷新,可以用当前日期保存数据库名。

  3、程序运行结果

  

  数据库中收录的数据有:排名、视频链接、标题、播放量、评论量、作者、综合评分。

  

  4、程序源代码

<p>

from bs4 import BeautifulSoup #解析网页

import re # 正则表达式,进行文字匹配

import urllib.request,urllib.error

import sqlite3

import time

def main():

#声明爬取网站

baseurl = "https://www.bilibili.com/v/popular/rank/all"

#爬取网页

datalist = getData(baseurl)

# print(datalist)

#保存数据

dbname = time.strftime("%Y-%m-%d", time.localtime())

dbpath = "BiliBiliTop100 " + dbname

saveData(datalist,dbpath)

#re正则表达式

findLink =re.compile(r'

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线