网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处 )

优采云发布时间: 2021-10-24 02:07

　　网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处

)

　　我们先来看看如何抓取图片数据？

　　例如，我们现在准备爬行这只可爱的火熊。

　　右键复制图片地址：

　　img_url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic21.nipic.com%2F20120606%2F5137861_093119370162_2.jpg&refer=http%3A%2F%2Fpic21.nipic.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1634794705&t=162f415928fef44dc6fb006639dd034d'

　　请求方法：

　　response = requests.get(url=img_url, headers=headers)

img_data = response.content # content返回的是二进制形式的响应数据

with open('1.jpg', 'wb') as f:

f.write(img_data)

　　urllib方式：

　　# 可以直接对url发起请求并且进行持久化存储

urllib.request.urlretrieve(img_url, './2.jpg')

　　以上两种爬图操作有什么区别？

　　使用 urllib 抓取图片不能用于 UA 伪装，但请求可以。使用urllib下载图片更方便，无需UA伪装！

　　使用定时批量抓取校花网络中的图片数据

　　url = http://www.521609.com/daxuexiaohua

　　操作：需要解析每张图片的地址，然后发起图片地址请求

　　在写代码之前，我们先来了解一下浏览器开发者工具：

　　浏览器开发者工具中Elements和network这两个标签对应的页面源数据有什么区别？

　　结论：如果在分析数据的时候需要分析页面布局，如果当前网站没有动态加载的数据，可以直接使用Elements来分析页面布局。否则只能使用网络来分析页面数据。

　　写代码前：

　　我们需要使用Elements来抓取图片地址，在源码中可以看到图片地址在node中：

　　复制节点中的源代码：

中国传媒大学上官青桐

　　现在开始写代码：（我们的课程主要讲解爬虫的抓包方法和解析方法，具体的常规编写等基础教程，大家可以自己学习）

<p>import re

import os

# 1.捕获到当前首页的页面源码数据

url1 = 'http://www.521609.com/daxuexiaohua'

page_text = requests.get(url=url1, headers=headers).text

# 2.从当前获取的页面源码数据中解析出图片地址，并用正则写出：

ex = '.*?

0

2021-10-24

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处 )

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处 )

0 个评论

发起人

相关问题