网页爬虫抓取百度图片(Pythonampamp//amp管理员;管理员管理员(组图))
优采云 发布时间: 2022-03-03 08:04网页爬虫抓取百度图片(Pythonampamp//amp管理员;管理员管理员(组图))
python爬虫BeautifulSoup快速抓取网站图片 Python / Admin 发表于 1 个月前 80
本文介绍BeautifulSoup模块的使用方法和注意事项,帮助您快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的朋友,快点学习吧。关注公众号获取爬虫教程。
第一步:了解需求
在开始写作之前,我们需要知道我们将要做什么?做爬行动物。
抢什么?抓取 网站 图像。
去哪里抢?图片之家
可以用这个网站练手,页面比较简单。
第 2 步:分析 网站 因素
我们知道需要抓取哪些网站数据,那么我们来分析一下网站是如何提供数据的。
根据分析,所有页面看起来都一样,所以我们选择一张照片给大家演示一下。
1、获取列表的标题以及链接
进一步研究页面数据,每个页面下面都有一个列表,然后通过列表的标题进入下一层。然后在这个页面上我们需要获取列表标题。
2、获取图片列表,以及链接,翻页操作
3、获取图片详情,所有图片
然后点击继续研究,发现还有更多图片。
分析完毕,我们来写代码。
流程图如下:
第 3 步:编写代码以实现需求
1、导入模块
导入我们需要使用的所有模块。
2、获取列表的标题,以及链接
3、获取类别列表标题、链接和翻页。
4、获取详细图片并保存
知识点总结
学习本文,可以掌握知识点。
1、掌握 BeautifulSoup
区分find和find_all的用法:find,查找第一个返回字符串,find_all查找全部,返回一个列表
区分get和get_text的用法:get获取标签中的属性,get_text获取标签包围的文本。
2、掌握正则,re.findall的使用
3、掌握字符串切片的方式 str[0,-5] 截取第一个文本到倒数第五个文本。
4、掌握创建文件夹的方法os.mkdir(name)
5、掌握with open(f, w) as f的用法:
6、掌握requests模块的get请求方法。