网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库 )
优采云 发布时间: 2022-02-20 04:15网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库
)
Python爬虫学习
文章目录
前言
写个项目书找资料真是大手笔,训练模型采集图片更烦人。我也复习了自己的python,于是开始了python爬虫的旅程,这样以后可以更方便的找资料。
一、什么是爬虫
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中更常称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。
爬虫是一段代码,可以自动从 Internet 上找到我需要的一些信息。例如,如果我想搜索一些信息,我可以搜索全世界。使用爬虫,我们可以通过关键字过滤我们需要的内容。或者你想看高收视率的电影。这时候也可以使用爬虫来查找一些收视率高的电影。
爬行动物的矛和盾
1、防爬机制
2、反反爬策略
3、robots.txt(君子协议)
二、打开一个小爬虫
使用软件 Pycharm
爬虫:通过编写程序获取互联网资源
要求:使用程序模拟浏览器。输入从中获取资源或内容的 URL
1、导入urlopen包
from urllib.request import urlopen
2、打开一个 URL 并获得响应
from urllib.request import urlopen #导入urlopen
url = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
print(resp.read()) #打印信息
前面有个b',代表字节,我们需要把字节转成字符串
3、解码
查看charest等号后面的内容,通过resp.read.decode()解码
from urllib.request import urlopen #导入urlopen
url = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
print(resp.read().decode("utf-8")) #打印解码信息
4、保存到文件
from urllib.request import urlopen #导入urlopen
url = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
with open("mybaidu.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码
f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
print("文件保存完成")
这次信息保存在html文件中
5、打开
这时,百度就会打开。
上面是我们搜索打开百度的网址,下面的网址明显不一样
它的本质是一样的,你可以查看网页的源代码,你会发现源代码是一样的,上面也有提到
f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
还能爬CCTV
from urllib.request import urlopen #导入urlopen
url = "http://v.cctv.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
#print(resp.read().decode("utf-8"))
with open("my2.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码
f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
print("文件保存完成")