excel抓取多页网页数据(共有5800家网贷平台暴雷问题平台数据测试(组图) )
优采云 发布时间: 2022-02-08 00:24excel抓取多页网页数据(共有5800家网贷平台暴雷问题平台数据测试(组图)
)
网贷平台经常出现雷雨天气。截至2019年12月,共有5800家网贷平台出现问题,其中一半以上失联,只有5.84%的平台有*敏*感*词*介入。
今天我们要做一个问题平台的数据采集测试。有很多网站提供在线贷款数据查询服务:
这个网站的数据不错,图表也很漂亮。下图是问题平台的数据表:
默认页面提供前 20 条数据。点击下方的load more会添加20条数据,其实就是一个查询按钮。然后我们开始Power Query网页爬取的步骤。
网站分析
F12打开谷歌浏览器的检查页面,按CTRL+R重新加载,点击加载更多,会出现新的一行查询:
通过预览可以看到对应的JSON数据,我们来加载更多数据:
页码页面从2变为3,共5800个平台,将有290个页面。
我们看一下网址:
这应该是一个带有查询页码的真实 URL。至此,我们的网站分析基本结束。
试着抓
试抓流程是为了验证我们的网站分析流程是否正确。在分析过程中,我们注意到网站的数据传输方式是POST。首先,不管是POST还是GET,我们直接用整个字符串抓取URL试试看:
貌似不能直接取,也不存在表。
别着急,我们来看看web视图的内容:
看起来是乱码,但是仔细观察数据的结构,貌似是标准的json结构,应该是我们需要的数据,其实是url编码的数据。让我们尝试用 JSON 解析这些数据:
果然。展开数据:
这是我们需要的数据,试验捕获过程已经结束。
定义函数
根据试捕查询流程创建函数:
添加页码参数p,因为页码是一个数值,我们使用一个Text.From函数将数值转换为文本并用&连接:
这样就定义了单页数据抓取功能。
抓
有了函数抓取,很简单,使用 List.Transfrom 函数遍历抓取:
一共抓取290行,然后展开数据:
通过4个步骤,我们捕获了问题平台的所有数据。
然后您可以使用捕获的数据进行自己的可视化: