网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库 )

优采云 发布时间: 2022-02-20 04:15

  网页爬虫抓取百度图片(Python爬虫之旅学习文章目录()-乐题库

)

  Python爬虫学习

  文章目录

  前言

  写个项目书找资料真是大手笔,训练模型采集图片更烦人。我也复习了自己的python,于是开始了python爬虫的旅程,这样以后可以更方便的找资料。

  一、什么是爬虫

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中更常称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  爬虫是一段代码,可以自动从 Internet 上找到我需要的一些信息。例如,如果我想搜索一些信息,我可以搜索全世界。使用爬虫,我们可以通过关键字过滤我们需要的内容。或者你想看高收视率的电影。这时候也可以使用爬虫来查找一些收视率高的电影。

  爬行动物的矛和盾

  1、防爬机制

  2、反反爬策略

  3、robots.txt(君子协议)

  二、打开一个小爬虫

  使用软件 Pycharm

  爬虫:通过编写程序获取互联网资源

  要求:使用程序模拟浏览器。输入从中获取资源或内容的 URL

  1、导入urlopen包

  from urllib.request import urlopen

  2、打开一个 URL 并获得响应

  from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

print(resp.read()) #打印信息

  

  前面有个b',代表字节,我们需要把字节转成字符串

  3、解码

  

  查看charest等号后面的内容,通过resp.read.decode()解码

  from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

print(resp.read().decode("utf-8")) #打印解码信息

  

  4、保存到文件

  from urllib.request import urlopen #导入urlopen

url = "http://www.baidu.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

with open("mybaidu.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码

f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

print("文件保存完成")

  

  

  

  这次信息保存在html文件中

  5、打开

  

  这时,百度就会打开。

  

  上面是我们搜索打开百度的网址,下面的网址明显不一样

  

  它的本质是一样的,你可以查看网页的源代码,你会发现源代码是一样的,上面也有提到

   f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

  还能爬CCTV

  from urllib.request import urlopen #导入urlopen

url = "http://v.cctv.com/" #要爬取的网址

resp = urlopen(url) #打开网址并返回响应

#print(resp.read().decode("utf-8"))

with open("my2.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码

f.write(resp.read().decode("utf-8")) #读取网页的页面源代码

print("文件保存完成")

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线