自动抓取网页数据(HEADRequest服务器收到收到发送消息(图):请求的数据GET/POST的区别)

优采云 发布时间: 2022-02-24 05:18

  自动抓取网页数据(HEADRequest服务器收到收到发送消息(图):请求的数据GET/POST的区别)

  收录额外的headers等信息,等待服务器响应

  获取响应内容

  如果服务器能正常响应,就会得到一个Response。Response的内容就是要获取的页面的内容。类型可以是 HTML、Json 字符串、二进制数据(图片或视频)等。

  解析内容

  获取的内容可以是HTML,可以用正则表达式和页面解析库解析,也可以是Json,可以直接转成Json对象解析,也可以是二进制数据,可以保存或进一步处理

  保存数据

  以多种形式保存,可以保存为文本,也可以保存到数据库,或者以特定格式保存文件

  请求与响应

  浏览器向 URL 所在的服务器发送消息。这个过程称为 HTTP 请求

  服务器收到浏览器发送的消息后,可以根据浏览器发送的消息内容进行相应的处理,然后将消息发送回浏览器。这个过程是 HTTP 响应

  浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后通过显示器呈现给用户。

  我们以访问百度为例:

  

  请求中收录什么?

  请求方法

  主要有:常用的GET/POST两种,还有HEAD/PUT/DELETE/OPTIONS

  GET 和 POST 的区别在于请求的数据 GET 在 url 中,而 POST 存储在 header 中

  GET:向指定资源发出“显示”请求。使用 GET 方法应该只用于读取数据,而不应该用于产生“副作用”的操作,例如在 Web 应用程序中。原因之一是 GET 可能被网络蜘蛛等任意访问。

  POST:向指定资源提交数据,并请求服务器处理(如提交表单或上传文件)。数据收录在请求文本中。此请求可能会创建新资源或修改现有资源,或两者兼而有之。

  HEAD:和GET方法一样,是对服务器的指定资源的请求。只是服务器不会返回资源的文本部分。它的优点是使用这种方法可以获取“有关资源的信息”(元信息或元数据),而无需传输整个内容。

  PUT:将其最新内容上传到指定的资源位置。

  OPTIONS:此方法使服务器能够返回资源支持的所有 HTTP 请求方法。将资源名称替换为\'*\',向web服务器发送OPTIONS请求,测试服务器功能是否正常工作。

  DELETE:请求服务器删除Request-URI标识的资源。

  请求网址

  URL,即Uniform Resource Locator,也就是我们所说的网站,Uniform Resource Locator是可以从互联网上获取的资源的位置和访问方式的简明表示,是互联网上标准资源的地址. Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应该如何处理它的信息。

  URL的格式由三部分组成:

  第一部分是协议(或服务模式)。

  第二部分是存储资源的主机的 IP 地址(有时是端口号)。

  第三部分是宿主资源的具体地址,如目录、文件名等。

  爬虫在爬取数据时,必须有目标URL才能获取数据。因此,它是爬虫获取数据的基本依据。

  请求头

  收录请求过程中的头部信息,如User-Agent、Host、Cookies等信息。下图显示了请求百度时所有的请求头信息参数。

  

  请求正文

  请求是携带的数据,比如提交表单数据时的表单数据(POST)

  响应中收录的内容

  所有 HTTP 响应的第一行是状态行,后跟当前 HTTP 版本号、3 位状态代码和描述状态的短语,以空格分隔。

  响应状态

  响应状态有多种,如:200表示成功,301跳转,404页面未找到,502服务器错误

  响应头

  如内容类型、类型长度、服务器信息、设置cookie,如下图:

  

  响应体

  最重要的部分,包括请求资源的内容,比如网页HTML、图片、二进制数据等。

  爬取数据类型

  网页文本:如HTML文档,Json格式化文本等

图片:获取到的是二进制文件,保存为图片格式

视频:同样是二进制文件

其他:只要请求到的,都可以获取

  解析数据方法

  1 直接处理

2 Json解析

3 正则表达式处理

4 BeautifulSoup解析处理

5 PyQuery解析处理

6 XPath解析处理

  关于抓取的页面数据与浏览器中看到的数据的区别

  保存数据

  文本:纯文本、Json、Xml等。

  关系型数据库:mysql、oracle、sql server等结构化数据库。

  非关系型数据库:MongoDB、Redis等键值存储

  

  至此,这篇关于Python爬虫的文章就讲完了。如果您的问题无法解决,请参考以下文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线