excel抓取多页网页数据(python爬虫入门,经典例题top250,将数据保存到数据库和Excel中 )

优采云 发布时间: 2022-04-02 05:15

  excel抓取多页网页数据(python爬虫入门,经典例题top250,将数据保存到数据库和Excel中

)

  python爬虫入门,top250经典例子,存数据到数据库和Excel没过)。

  首先,这是一个静态的网站,所有的电影信息一次性发给客户端,只要拿到服务器发回的网页然后提取字符串就可以得到想要的信息。

  本次用到的库:

  import re # 正则表达式进行文字匹配

import requests # 第三方库,获取网页数据

import xlwt # 进行Excel操作

import sqlite3 # 进行数据库操作

  第一步是访问URL获取指定的URL内容:

  # 访问URL得到一个指定的URL内容

def askUrl(baseurl,param):

# # 模拟浏览器头部信息,向服务器发送消息

header = {

"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36"

}

# response 用来封装接收从服务器返回的信息

response = requests.get(baseurl,params=param,headers=header)

html = response.text

# 关闭与服务器的连接:

response.close() # response.close()关闭与服务器的连接,如果不关闭连接会一直保持连接,最后堵死

return html

  第二步,获取网页并一一解析数据:

  这一次,只使用正则表达式来解析数据。正则表达式的定义规则如下:

<p># 正则表达式,定义规则:

# 找到每一部电影的大体位置:

find_location = re.compile(r&#39;(.*?)&#39;,re.S) # 使得‘.’的匹配包括换行符在内

# 获取影片的链接:

find_link = re.compile(r&#39;<a href="(.*?)">&#39;)

# 获取影片的名字:

find_name = re.compile(r&#39;(.*?)&#39;)

# 获取影片的图片

find_picture = re.compile(r&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线