网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处 )

优采云 发布时间: 2021-10-24 02:07

  网页爬虫抓取百度图片(如何使用正则批量爬取校花网中的图片数据不同之处

)

  我们先来看看如何抓取图片数据?

  例如,我们现在准备爬行这只可爱的火熊。

  

  右键复制图片地址:

  img_url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic21.nipic.com%2F20120606%2F5137861_093119370162_2.jpg&refer=http%3A%2F%2Fpic21.nipic.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1634794705&t=162f415928fef44dc6fb006639dd034d'

  请求方法:

  response = requests.get(url=img_url, headers=headers)

img_data = response.content # content返回的是二进制形式的响应数据

with open('1.jpg', 'wb') as f:

f.write(img_data)

  urllib方式:

  # 可以直接对url发起请求并且进行持久化存储

urllib.request.urlretrieve(img_url, './2.jpg')

  以上两种爬图操作有什么区别?

  使用 urllib 抓取图片不能用于 UA 伪装,但请求可以。使用urllib下载图片更方便,无需UA伪装!

  使用定时批量抓取校花网络中的图片数据

  

  url = http://www.521609.com/daxuexiaohua

  操作:需要解析每张图片的地址,然后发起图片地址请求

  在写代码之前,我们先来了解一下浏览器开发者工具:

  浏览器开发者工具中Elements和network这两个标签对应的页面源数据有什么区别?

  

  结论:如果在分析数据的时候需要分析页面布局,如果当前网站没有动态加载的数据,可以直接使用Elements来分析页面布局。否则只能使用网络来分析页面数据。

  写代码前:

  我们需要使用Elements来抓取图片地址,在源码中可以看到图片地址在node中:

  

  复制节点中的源代码:

  

  

中国传媒大学上官青桐

  现在开始写代码:(我们的课程主要讲解爬虫的抓包方法和解析方法,具体的常规编写等基础教程,大家可以自己学习)

<p>import re

import os

# 1.捕获到当前首页的页面源码数据

url1 = &#39;http://www.521609.com/daxuexiaohua&#39;

page_text = requests.get(url=url1, headers=headers).text

# 2.从当前获取的页面源码数据中解析出图片地址,并用正则写出:

ex = &#39;.*?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线