excel抓取多页网页数据(python爬虫入门,经典例题top250,将数据保存到数据库和Excel中 )
优采云 发布时间: 2022-04-02 05:15excel抓取多页网页数据(python爬虫入门,经典例题top250,将数据保存到数据库和Excel中
)
python爬虫入门,top250经典例子,存数据到数据库和Excel没过)。
首先,这是一个静态的网站,所有的电影信息一次性发给客户端,只要拿到服务器发回的网页然后提取字符串就可以得到想要的信息。
本次用到的库:
import re # 正则表达式进行文字匹配
import requests # 第三方库,获取网页数据
import xlwt # 进行Excel操作
import sqlite3 # 进行数据库操作
第一步是访问URL获取指定的URL内容:
# 访问URL得到一个指定的URL内容
def askUrl(baseurl,param):
# # 模拟浏览器头部信息,向服务器发送消息
header = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36"
}
# response 用来封装接收从服务器返回的信息
response = requests.get(baseurl,params=param,headers=header)
html = response.text
# 关闭与服务器的连接:
response.close() # response.close()关闭与服务器的连接,如果不关闭连接会一直保持连接,最后堵死
return html
第二步,获取网页并一一解析数据:
这一次,只使用正则表达式来解析数据。正则表达式的定义规则如下:
<p># 正则表达式,定义规则:
# 找到每一部电影的大体位置:
find_location = re.compile(r'(.*?)',re.S) # 使得‘.’的匹配包括换行符在内
# 获取影片的链接:
find_link = re.compile(r'<a href="(.*?)">')
# 获取影片的名字:
find_name = re.compile(r'(.*?)')
# 获取影片的图片
find_picture = re.compile(r'