php抓取网页所有图片(php抓取网页所有图片的方法，怎么爬虫我也学习过)

优采云发布时间: 2021-10-27 03:04

　　php抓取网页所有图片的方法是：打开网站，发现该网站并没有对php做mysql的读写操作（js），由于是php程序，所以可以不用curl，尝试以命令行的方式：输入jieba-lobject-m"*.jpg"抓取网页上的所有图片。点击返回结果，发现有几十万张图片，图片总大小为1024*1024，另外还有人工标注了图片的颜色，每种颜色大小为256*256，经过总计有小图8亿张，所以图片总数为322亿张，所以只需要再加上总量的10%，保守估计有164亿张图片。

　　那么可以算出有十亿张图片，总计是322*322*164亿张。总数322亿张图片只需抓取3万张就可以，一秒钟抓取2.8万张，需要获取的数据量应该在6.8g左右。而ip一般4000左右一个ip，所以可以算出抓取时要等待大约8秒才可以抓取完成。

　　谢谢@黄大侠的邀请~对于知乎上的问题，我个人认为最权威的是国外的那几个专家的解读：---python爬虫会从网页上读取到图片的cookie，然后把cookie的hash值存起来，然后不同的机器有不同的ip地址和cookie，然后一个浏览器对应一个ip登录，然后下载的python浏览器就可以识别出来，然后就可以下载了。

　　urls是目前最常用的获取图片地址的方法，这几个对这个问题都有解答，自己照着做一下吧，把爬虫下载地址重新url一遍就可以了。还有各大论坛上也是有很多图片下载的，搜索下就可以了，要注意是不是封ip的。另外，我最近也在看爬虫方面的书籍，对于怎么爬虫我也学习过，但是感觉一下子太麻烦了，所以就没再看了，书籍推荐：三个python爬虫框架，百度搜索的：python三个python爬虫框架~~编程思想：flask爬虫框架小例子第2版~~爬虫框架pyspider-利用python从互联网上抓取数据，学习方法还是挺多的，就是没学到什么东西~。

0

2021-10-27

php抓取网页所有图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页所有图片(php抓取网页所有图片的方法，怎么爬虫我也学习过)

0 个评论

发起人