php抓取网页所有图片(php抓取网页所有图片的方法,怎么爬虫我也学习过)

优采云 发布时间: 2021-10-27 03:04

  php抓取网页所有图片(php抓取网页所有图片的方法,怎么爬虫我也学习过)

  php抓取网页所有图片的方法是:打开网站,发现该网站并没有对php做mysql的读写操作(js),由于是php程序,所以可以不用curl,尝试以命令行的方式:输入jieba-lobject-m"*.jpg"抓取网页上的所有图片。点击返回结果,发现有几十万张图片,图片总大小为1024*1024,另外还有人工标注了图片的颜色,每种颜色大小为256*256,经过总计有小图8亿张,所以图片总数为322亿张,所以只需要再加上总量的10%,保守估计有164亿张图片。

  那么可以算出有十亿张图片,总计是322*322*164亿张。总数322亿张图片只需抓取3万张就可以,一秒钟抓取2.8万张,需要获取的数据量应该在6.8g左右。而ip一般4000左右一个ip,所以可以算出抓取时要等待大约8秒才可以抓取完成。

  谢谢@黄大侠的邀请~对于知乎上的问题,我个人认为最权威的是国外的那几个专家的解读:---python爬虫会从网页上读取到图片的cookie,然后把cookie的hash值存起来,然后不同的机器有不同的ip地址和cookie,然后一个浏览器对应一个ip登录,然后下载的python浏览器就可以识别出来,然后就可以下载了。

  urls是目前最常用的获取图片地址的方法,这几个对这个问题都有解答,自己照着做一下吧,把爬虫下载地址重新url一遍就可以了。还有各大论坛上也是有很多图片下载的,搜索下就可以了,要注意是不是封ip的。另外,我最近也在看爬虫方面的书籍,对于怎么爬虫我也学习过,但是感觉一下子太麻烦了,所以就没再看了,书籍推荐:三个python爬虫框架,百度搜索的:python三个python爬虫框架~~编程思想:flask爬虫框架小例子第2版~~爬虫框架pyspider-利用python从互联网上抓取数据,学习方法还是挺多的,就是没学到什么东西~。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线