网页爬虫抓取百度图片(想要学习Python?有问题得不到第一第一时间解决?(图))
优采云 发布时间: 2022-02-26 15:20网页爬虫抓取百度图片(想要学习Python?有问题得不到第一第一时间解决?(图))
想学 Python?遇到无法第一时间解决的问题?来这里看看“1039649593”满足你的需求,资料已经上传到文件中,你可以自己下载!还有大量2020最新的python学习资料。
点击查看
1. 概述
本文主要实现一个简单的爬虫,目的是从*敏*感*词*页面下载图片。下载图片的步骤如下:
(1)获取网页的html文本内容;
(2)分析html中图片的html标签特征,使用正则解析得到所有图片url链接的列表;
(3)根据图片的url链接列表将图片下载到本地文件夹。
2. urllib+re 实现
<p>1#!/usr/bin/python
2# coding:utf-8
3# 实现一个简单的爬虫,爬取*敏*感*词*图片
4import urllib
5import re
6# 根据url获取网页html内容
7def getHtmlContent(url):
8 page = urllib.urlopen(url)
9
10return page.read()
11# 从html中解析出所有jpg图片的url
12# *敏*感*词*html中jpg图片的url格式为:XXX.jpg
13def getJPGs(html):
14# 解析jpg图片url的正则
15 jpgReg = re.compile(r'