php 抓取网页生成图片(#feimengjuanimporturllib#抓取网页图片#(根据的网址来获取))
优采云 发布时间: 2021-11-01 18:11php 抓取网页生成图片(#feimengjuanimporturllib#抓取网页图片#(根据的网址来获取))
本文文章主要介绍Python简单网页图片抓取的完整代码示例,具有一定的参考价值,有需要的朋友可以参考。
使用python捕捉网络图片的步骤是:
1、根据给定的URL获取网页的源码
2、使用正则表达式过滤掉源码中的图片地址
3、根据过滤后的图片地址下载网络图片
下面是一个比较简单的抓取*敏*感*词*网页图片的实现:
# -*- 编码:utf-8 -*-
#飞梦娟
*敏*感*词*重新
导入 urllib
导入 urllib2
#抓取网页图片
#根据给定的URL获取网页的详细信息,得到的html就是网页的源代码
def getHtml(url):
页面 = urllib.urlopen(url)
html = page.read()
返回 html
def getImg(html):
#使用正则表达式过滤掉源代码中的图片地址
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = 桩(注册)
imglist = imgre.findall(html) #表示在整个网页中过滤掉所有图片的地址,放入imglist
x = 0
对于 imglist 中的 imgurl:
urllib.urlretrieve(imgurl,'%s.jpg' %x) #打开imglist中保存的图片网址,下载图片保存到本地
x = x + 1
html = getHtml(")#获取该URL的网页的详细信息,获取的html即为该网页的源代码
getImg(html)#从网页源代码中分析并下载并保存图片
进一步整理了代码,在本地创建了一个“图片”文件夹,用来保存图片
# -*- 编码:utf-8 -*-
#飞梦娟
*敏*感*词*重新
导入 urllib
导入 urllib2
导入操作系统
#抓取网页图片
#根据给定的URL获取网页的详细信息,得到的html就是网页的源代码
def getHtml(url):
页面 = urllib.urlopen(url)
html = page.read()
返回 html
#创建一个文件夹来保存图片
def mkdir(路径):
路径 = path.strip()
#判断路径是否存在
# 现有真
# Flase 不存在
isExists = os.path.exists(path)
如果不是 isExists:
print u'created a new folder named ',path,u'
# 创建目录操作函数
os.makedirs(路径)
返回真
别的:
# 如果目录存在,不创建,提示目录已存在
打印 u'名为',path,u'的文件夹已成功创建'
返回错误
# 输入文件名,保存多张图片
def saveImages(imglist,name):
数字 = 1
对于 imglist 中的 imageURL:
splitPath = imageURL.split('.')
fTail = splitPath.pop()
如果 len(fTail)> 3:
fTail ='jpg'
文件名 = 名称 + "/" + str(number) + "." + f尾
# 对于每个图片地址,保存
尝试:
u = urllib2.urlopen(imageURL)
数据 = u.read()
f = 打开(文件名,'wb+')
f.写(数据)
print u'正在保存的图片是',fileName
f.close()
除了 urllib2.URLError 作为 e:
打印(e.reason)
数字 += 1
#获取网页中所有图片的地址
def getAllImg(html):
#使用正则表达式过滤掉源代码中的图片地址
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = 桩(注册)
imglist = imgre.findall(html) #表示在整个网页中过滤掉所有图片的地址,放入imglist
返回 imglist
#创建本地保存文件夹,并下载并保存图片
如果 __name__ =='__main__':
html = getHtml(")#获取该URL的网页的详细信息,获取的html即为该网页的源代码
路径 = u'图片'
mkdir(path) #创建本地文件夹
imglist = getAllImg(html) #获取图片地址列表
saveImages(imglist,path) # 保存图片
结果,在“图片”文件夹中保存了数十张图片,如截图所示:
非常感谢您的阅读
上大学的时候选择自学python,但工作后发现自己电脑基础不好,学位也不好。这是
没办法,只能后天弥补,于是我在编码之外开始了自己的逆袭,继续学习python的核心知识。
把我录入的计算机基础知识整理一下,放到我们的微信公众号“程序员学校”上。如果你不愿意平庸,
然后在编码之外加入我并继续成长!
—————————————————
版权声明:本文为CSDN博主“程序员牡蛎”的原创文章,遵循C*敏*感*词*.0 BY-SA版权协议。转载请附上原出处链接和本声明。
原文链接:
:
来自“ITPUB博客”,链接:,如需转载请注明出处,否则将追究法律责任。