网页爬虫抓取百度图片(什么是爬虫?网络爬虫的本质模拟浏览器的基本流程)

优采云 发布时间: 2022-04-04 03:09

  网页爬虫抓取百度图片(什么是爬虫?网络爬虫的本质模拟浏览器的基本流程)

  一、什么是爬虫?

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网页追逐者)是根据一定的规则自动爬取万维网上信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  其实通俗的说,就是通过程序在网页上获取你想要的数据,也就是自动抓取数据。

  您可以抓取女孩的照片并抓取您想观看的视频。. 等待你要爬取的数据,只要你能通过浏览器访问的数据就可以通过爬虫获取

  二、爬行动物的本质

  模拟浏览器打开网页,获取网页中我们想要的部分数据

  在浏览器中打开网页的过程:

  当你在浏览器中输入地址,通过DNS服务器找到服务器主机,向服务器发送请求,服务器解析并将结果发送给用户的浏览器,包括html、js、css等文件内容,浏览器解析它并最终呈现它给用户在浏览器上看到的结果

  因此,用户看到的浏览器的结果都是由 HTML 代码组成的。我们的爬虫就是获取这些内容,通过对HTML代码的分析和过滤,获取我们想要的资源(文字、图片、视频...)

  三、爬虫基本流程

  发出请求

  通过HTTP库向目标站点发起请求,即发送Request,请求中可以收录额外的headers等信息,等待服务器响应

  获取响应内容

  如果服务器能正常响应,就会得到一个Response。Response的内容就是要获取的页面的内容。类型可以是 HTML、Json 字符串、二进制数据(图片或视频)等。

  解析内容

  获取的内容可以是HTML,可以用正则表达式和页面解析库解析,也可以是Json,可以直接转成Json对象解析,也可以是二进制数据,可以保存或进一步处理

  保存数据

  以多种形式保存,可以保存为文本,也可以保存到数据库,或者以特定格式保存文件

  四、什么是请求

  Requests 是基于 urllib 用 python 编写,使用 Apache2 Licensed 开源协议的 HTTP 库

  如果你看过之前的文章文章关于urllib库的使用,你会发现urllib其实很不方便,而且Requests比urllib方便,可以为我们省去很多工作。(使用requests之后,你基本就舍不得用urllib了。)总之,requests是python实现的最简单最简单的HTTP库。建议爬虫使用 requests 库。

  默认安装python后,requests模块没有安装,需要通过pip单独安装

  五、Requests 库的基础知识

  

  Requests 库的 7 个主要方法

  我们通过调用Request库中的方法获取返回的对象。它包括两个对象,请求对象和响应对象。

  请求对象就是我们要请求的url,响应对象就是返回的内容,如图:

  

  Request 库的两个重要对象

  六、安装请求

  1.强烈建议您使用pip进行安装:pip insrall requests

  2.Pycharm安装:文件-》默认设置-》项目解释器-》搜索请求-》安装包-》ok

  七、Requests库的操作示例

  1、京东商品爬虫-普通爬虫框架

  导入请求

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线