excel抓取多页网页数据(python爬虫入门，经典例题top250，将数据保存到数据库和Excel中 )

优采云发布时间: 2022-04-02 05:15

　　excel抓取多页网页数据(python爬虫入门，经典例题top250，将数据保存到数据库和Excel中

)

　　python爬虫入门，top250经典例子，存数据到数据库和Excel没过）。

　　首先，这是一个静态的网站，所有的电影信息一次性发给客户端，只要拿到服务器发回的网页然后提取字符串就可以得到想要的信息。

　　本次用到的库：

　　import re # 正则表达式进行文字匹配

import requests # 第三方库，获取网页数据

import xlwt # 进行Excel操作

import sqlite3 # 进行数据库操作

　　第一步是访问URL获取指定的URL内容：

　　# 访问URL得到一个指定的URL内容

def askUrl(baseurl,param):

# # 模拟浏览器头部信息，向服务器发送消息

header = {

"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36"

}

# response 用来封装接收从服务器返回的信息

response = requests.get(baseurl,params=param,headers=header)

html = response.text

# 关闭与服务器的连接：

response.close() # response.close()关闭与服务器的连接,如果不关闭连接会一直保持连接，最后堵死

return html

　　第二步，获取网页并一一解析数据：

　　这一次，只使用正则表达式来解析数据。正则表达式的定义规则如下：

<p># 正则表达式，定义规则：

# 找到每一部电影的大体位置：

find_location = re.compile(r'(.*?)',re.S) # 使得‘.’的匹配包括换行符在内

# 获取影片的链接：

find_link = re.compile(r'<a href="(.*?)">')

# 获取影片的名字：

find_name = re.compile(r'(.*?)')

# 获取影片的图片

find_picture = re.compile(r'

0

2022-04-02

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册