网页爬虫抓取百度图片(想要学习Python？有问题得不到第一第一时间解决？(图))

优采云发布时间: 2022-02-26 15:20

　　想学 Python？遇到无法第一时间解决的问题？来这里看看“1039649593”满足你的需求，资料已经上传到文件中，你可以自己下载！还有大量2020最新的python学习资料。

　　点击查看

　　1. 概述

　　本文主要实现一个简单的爬虫，目的是从*敏*感*词*页面下载图片。下载图片的步骤如下：

　　(1）获取网页的html文本内容；

　　(2）分析html中图片的html标签特征，使用正则解析得到所有图片url链接的列表；

　　(3）根据图片的url链接列表将图片下载到本地文件夹。

　　2. urllib+re 实现

<p>1#!/usr/bin/python

2# coding:utf-8

3# 实现一个简单的爬虫，爬取*敏*感*词*图片

4import urllib

5import re

6# 根据url获取网页html内容

7def getHtmlContent(url):

8 page = urllib.urlopen(url)

9

10return page.read()

11# 从html中解析出所有jpg图片的url

12# *敏*感*词*html中jpg图片的url格式为：XXX.jpg

13def getJPGs(html):

14# 解析jpg图片url的正则

15 jpgReg = re.compile(r'

0

2022-02-26

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册