excel抓取多页网页数据(共有5800家网贷平台暴雷问题平台数据测试(组图) )

优采云 发布时间: 2022-02-08 00:24

  excel抓取多页网页数据(共有5800家网贷平台暴雷问题平台数据测试(组图)

)

  网贷平台经常出现雷雨天气。截至2019年12月,共有5800家网贷平台出现问题,其中一半以上失联,只有5.84%的平台有*敏*感*词*介入。

  

  今天我们要做一个问题平台的数据采集测试。有很多网站提供在线贷款数据查询服务:

  

  这个网站的数据不错,图表也很漂亮。下图是问题平台的数据表:

  

  默认页面提供前 20 条数据。点击下方的load more会添加20条数据,其实就是一个查询按钮。然后我们开始Power Query网页爬取的步骤。

  网站分析

  F12打开谷歌浏览器的检查页面,按CTRL+R重新加载,点击加载更多,会出现新的一行查询:

  

  通过预览可以看到对应的JSON数据,我们来加载更多数据:

  

  页码页面从2变为3,共5800个平台,将有290个页面。

  我们看一下网址:

  

  这应该是一个带有查询页码的真实 URL。至此,我们的网站分析基本结束。

  试着抓

  试抓流程是为了验证我们的网站分析流程是否正确。在分析过程中,我们注意到网站的数据传输方式是POST。首先,不管是POST还是GET,我们直接用整个字符串抓取URL试试看:

  

  貌似不能直接取,也不存在表。

  别着急,我们来看看web视图的内容:

  

  看起来是乱码,但是仔细观察数据的结构,貌似是标准的json结构,应该是我们需要的数据,其实是url编码的数据。让我们尝试用 JSON 解析这些数据:

  

  果然。展开数据:

  

  这是我们需要的数据,试验捕获过程已经结束。

  定义函数

  根据试捕查询流程创建函数:

  

  添加页码参数p,因为页码是一个数值,我们使用一个Text.From函数将数值转换为文本并用&连接:

  

  这样就定义了单页数据抓取功能。

  抓

  有了函数抓取,很简单,使用 List.Transfrom 函数遍历抓取:

  

  一共抓取290行,然后展开数据:

  

  通过4个步骤,我们捕获了问题平台的所有数据。

  然后您可以使用捕获的数据进行自己的可视化:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线