什么猫咪最受欢迎？Python爬取全网猫咪图片，哪一款是你最爱的

优采云发布时间: 2022-05-04 07:35

　　采集目标

　　网页资源地址：%C3%A8%DF%E4%CD%BC%C6%AC&fr=ala&ala=1&alatpl=normal&pos=0&dyTabStr=MCwzLDYsNSwxLDQsOCw3LDIsOQ%3D%3D

　　工具准备

　　开发工具：pycharm

　　开发环境：python3.7， Windows11使用工具包：requests

　　项目思路解析

　　做爬虫案例首先需要明确自己的采集目标，白又白这里采集的是当前网页的所有图片信息，有目标后梳理自己的代码编写流程，爬虫的基本四步骤：

　　第四步：保存数据信息

　　第一步：找数据地址

　　数据的加载方式一般有两种，一种静态一种动态，当前网页的数据在往下刷新时不断的加载数据，可以判断出数据加载的方式为动态的，动态数据需要通过浏览器的抓包工具获取，鼠标右击点击检查，或者按f12的快捷方式，找到加载的数据地址

　　找到对应数据地址，点击弹出的接口后可以点击预览，预览打开的页面是展示给我们的数据，在数据多的时候通过他来进行查看，获取的数据是通过网址获取的，网址数据在请求里，对网址发送网络请求

　　第二步：代码发送网络请求

　　发送请求的工具包会非常多，入门阶段更多的是使用requests工具包，requests是第三方工具包，需要进行下载：pip install requests 发送请求时需要注意我们通过代码请求，web服务器会根据http请求报文来进行区分是浏览器还是爬虫，爬虫不受欢迎的，爬虫代码需要对自己进行伪装，发送请求时带上headers传输的数据类型为字典键值对，ua字段是非常重要的浏览器的*敏*感*词*

　　第三步：提取数据

　　当前获取的数据为动态数据，动态数据动态数据一般都是json数据，json数据可以通过jsonpath直接提取，也可以直接转换成字典，通过Python提取最终的目的是提取到图片的url地址

　　提取出新的地址后需要再次对网址发送请求，我们需要的是图片数据，链接一般是保存在数据中，发送请求获取图片对应的进制数据

　　第四步：保存数据

　　数据获取到之后将数据进行储存，选择自己数据储存的位置，选择写入方式，我们获取的数据是进制数据，文件访问模式用的wb，将获取到的图片进入数据写入就行，文件的后缀需要是图片结尾的后缀，可以选择用标题命名，白又白使用网址后部分进行命名。

0

2022-05-04

如何抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

什么猫咪最受欢迎？Python爬取全网猫咪图片，哪一款是你最爱的

0 个评论

发起人

AI时代内容工厂

什么猫咪最受欢迎？Python爬取全网猫咪图片，哪一款是你最爱的

0 个评论

发起人

相关问题