网页爬虫抓取百度图片(Python的爬虫模块训练集图片数据采集图片集 )
优采云 发布时间: 2022-02-06 03:00网页爬虫抓取百度图片(Python的爬虫模块训练集图片数据采集图片集
)
百度图库关键词爬虫脚本本章设计了一个基于Python的爬虫模块,可以根据用户自定义的关键词和要爬取的图片数量,自动保存百度图库采集中的图片数据。功能设计与分析
该模块为后续模型训练提供了一个数据集,属于data采集部分。该模块的功能应解决以下问题:
目标网站的图片数量足够多,车辆类型涵盖基本类型,爬取难度不要太高。综合分析,百度图库可以满足上述要求。因此以百度图库为目标爬取网站。爬虫模块应该能够根据不同的输入危险车辆类别爬取不同类型的车辆图片,所以要求爬虫模块能够根据不同的车辆类别名称爬取图片采集图片爬虫模块应该是能够根据用户指定的编号爬取采集图片,然后对Python语言爬虫相关库进行编号分类
<p>#/*
#* @Author: hujinlei
#* @Date: 2018-06-07 20:50:31
#* @Last Modified by: hjl
#* @Last Modified time: 2018-06-07 20:50:31
#*/
import os
import re
#import urllib
import json
import socket
import urllib.request
import urllib.parse
import urllib.error
# 设置超时
import time
timeout = 8
socket.setdefaulttimeout(timeout)
#!/usr/bin/env python
# -*- coding:utf-8 -*-
class Crawler:
# 睡眠时长
__time_sleep = 0.1
__amount = 0
__start_amount = 0
__counter = 0
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
# 获取图片url内容等
# t 下载图片时间间隔
def __init__(self, t=0.1):
self.time_sleep = t
# 获取后缀名
def get_suffix(self, name):
m = re.search(r'\.[^\.]*$', name)
if m.group(0) and len(m.group(0))