网页爬虫抓取百度图片(学习Python爬虫模块的基本结构编写爬虫程序的必备知识)

优采云发布时间: 2021-10-01 18:09

　　爬虫程序之所以能够抓取数据，是因为爬虫可以对网页进行分析，从网页中提取出想要的数据。在学习Python爬虫模块之前，我们有必要熟悉网页的基本结构，这是编写爬虫程序的必备知识。

　　网上的初步教程：这里

　　静态/动态的一个重要区别是是否需要连接后端数据库，

　　由于静态网页的内容比较固定，不需要连接后端数据库，响应速度非常快。但是静态网页更新比较麻烦，每次更新都需要重新加载整个网页。

　　动态页面利用“动态页面技术”与服务器交换少量数据，从而实现网页的异步加载。我们来看一个具体的例子：

　　打开百度图片()，搜索Python。当您滚动鼠标滚轮时，网页将自动从服务器数据库加载数据并呈现页面。这是动态网页和静态网页之间最基本的区别。如下：

　　除了 HTML 标记语言，动态网页还收录一些特定功能的代码。这些代码使浏览器和服务器能够交互。服务端会根据客户端的不同请求生成网页，涉及到数据库连接、访问、查询等一系列IO操作，因此响应速度比静态网页稍差。

　　注：一般网站通常采用动静结合的方式来达到平衡状态。

　　当然，动态网页也可以是纯文字，页面中还可以收录各种*敏*感*词*效果。这些只是网络内容的表达。其实不管网页有没有动态效果，只要使用了动态网站技术，那么这个网页就叫做动态网页。

　　\[问答\]

　　爬取动态网页的过程比较复杂，需要动态抓包获取客户端与服务器交互的JSON数据。抓包时可以使用谷歌浏览器开发者模式（快捷键：F12）Network选项，然后点击XHR找到获取JSON数据的URL，如下图：

　　或者你可以使用专业的抓包工具Fiddler。动态网页的数据抓取将在后续内容中详细讲解。

　　【网络爬虫学习】一个网页的基本结构

　　原来的：

0

2021-10-01

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册