网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库 )

优采云发布时间: 2022-02-20 04:15

　　网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库

)

　　Python爬虫学习

　　文章目录

　　前言

　　写个项目书找资料真是大手笔，训练模型采集图片更烦人。我也复习了自己的python，于是开始了python爬虫的旅程，这样以后可以更方便的找资料。

　　一、什么是爬虫

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中更常称为网络追逐者）是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

　　爬虫是一段代码，可以自动从 Internet 上找到我需要的一些信息。例如，如果我想搜索一些信息，我可以搜索全世界。使用爬虫，我们可以通过关键字过滤我们需要的内容。或者你想看高收视率的电影。这时候也可以使用爬虫来查找一些收视率高的电影。

　　爬行动物的矛和盾

　　1、防爬机制

　　2、反反爬策略

　　3、robots.txt（君子协议）

　　二、打开一个小爬虫

　　使用软件 Pycharm

　　爬虫：通过编写程序获取互联网资源

　　要求：使用程序模拟浏览器。输入从中获取资源或内容的 URL

　　1、导入urlopen包

　　from urllib.request import urlopen

　　2、打开一个 URL 并获得响应

　　from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

print(resp.read()) #打印信息

　　前面有个b'，代表字节，我们需要把字节转成字符串

　　3、解码

　　查看charest等号后面的内容，通过resp.read.decode()解码

　　from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

print(resp.read().decode("utf-8")) #打印解码信息

　　4、保存到文件

　　from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

with open("mybaidu.html",mode="w",encoding='utf-8') as f: #创建html文件并保存，encoding设置编码

f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

print("文件保存完成")

　　这次信息保存在html文件中

　　5、打开

　　这时，百度就会打开。

　　上面是我们搜索打开百度的网址，下面的网址明显不一样

　　它的本质是一样的，你可以查看网页的源代码，你会发现源代码是一样的，上面也有提到

　　 f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

　　还能爬CCTV

　　from urllib.request import urlopen #导入urlopen

url = "http://v.cctv.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

#print(resp.read().decode("utf-8"))

with open("my2.html",mode="w",encoding='utf-8') as f: #创建html文件并保存，encoding设置编码

f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

print("文件保存完成")

0

2022-02-20

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库 )

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库 )

0 个评论

发起人

相关问题