c 抓取网页数据(python如何检测网页中是否存在动态加载的数据？(图))

优采云发布时间: 2022-03-23 01:10

　　在使用python爬虫技术采集数据信息时，经常会遇到在返回的网页信息中无法抓取到动态加载的可用数据。例如，当在网页中获取产品的价格时，就会出现这种现象。如下所示。本文将实现类似的动态加载数据爬取网页。

　　1. 那么什么是动态加载的数据呢？

　　我们通过requests模块爬取的数据不能每次都是可见的，部分数据是通过非浏览器地址栏中的url请求获取的。但是通过其他请求请求的数据，那么通过其他请求请求的数据是动态加载的数据。（猜测是js代码在我们访问这个页面从其他url获取数据的时候会发送get请求）

　　2. 如何检测网页中是否有动态加载的数据？

　　在当前页面打开抓包工具，抓取地址栏url对应的数据包，在数据包的响应标签中搜索我们要抓取的数据。如果找到了搜索结果，说明数据不是动态加载的。否则，数据将被动态加载。如图所示：

　　或者右键要爬取的页面，显示网页的源代码，搜索我们要爬取的数据。如果搜索到结果，说明数据没有动态加载，否则说明数据是动态加载的。如图所示：

　　3. 如果数据是动态加载的，我们如何捕获动态加载的数据呢？

　　在实现对动态加载的数据信息的爬取时，首先需要根据动态加载技术在浏览器的网络*敏*感*词*中选择网络请求的类型，然后通过对预览信息中的关键数据进行一一过滤查询，得到对应请求地址，最后解析信息。具体步骤如下：

　　在浏览器中，按快捷键F12打开开发者工具，然后选择Network（网络监视器），在网络类型中选择JS，然后按快捷键F5刷新，如下图。

　　在请求信息列表中，依次点击各个请求信息，然后在对应的Preview（请求结果预览）中查看是否是需要获取的动态加载的数据，如下图所示。

　　查看动态加载的数据信息后，点击Headers获取当前网络请求地址和所需参数，如下图所示。

　　根据上述步骤得到的请求地址，发出网络请求，从返回的信息中提取商品价格信息。作者在代码中使用了反序列化。可以点击这里了解json序列化和反序列化。代码如下：

import requests

import json

# 获取商品价格的请求地址

url = "https://c0.3.cn/stock?skuId=12464037&cat=1713,3259,3333&venderId=1000077923&area" \

"=4_113_9786_0&buyNum=1&choseSuitSkuIds=&extraParam={%22originid%22:%221%22}&ch=1&fqsp=0&" \

"pduid=1573698619147398205303&pdpin=jd_635f3b795bb1c&coord=&detailedAdd=&callback=jQuery6495921"

jQuery_id = url.split("=")[-1] + "("

# 头部信息

headers = {

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "

"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"

}

# 发送网络请求

response = requests.get(url, headers=headers)

if response.status_code == 200:

goods_dict = json.loads(response.text.replace(jQuery_id, "")[:-1]) # 反序列化

print(f"当前售价为: {goods_dict['stock']['jdPrice']['op']}")

print(f"定价为: {goods_dict['stock']['jdPrice']['m']}")

print(f"会员价为: {goods_dict['stock']['jdPrice']['tpp']}")

else:

print("请求失败！")

　　作者在写博文的时候，价格发生了变化，运行结果如下图所示：

　　注意：爬取动态加载的数据信息时，需要根据不同的网页使用不同的方法提取数据。如果运行源码时出现错误，请按照步骤获取新的请求地址。

　　这是文章关于Python如何实现对网页中动态加载的数据的爬取的介绍。更多关于使用Python从网页抓取动态数据的信息，请在自学编程网前搜索文章或文章。继续浏览以下相关文章希望大家以后多多支持自学编程网！

0

2022-03-23

c 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c 抓取网页数据(python如何检测网页中是否存在动态加载的数据？(图))

0 个评论

发起人

AI时代内容工厂

c 抓取网页数据(python如何检测网页中是否存在动态加载的数据？(图))

0 个评论

发起人

相关问题