htmlunit抓取动态网页(我们自己解析url数据访问你的api好了(组图) )
优采云 发布时间: 2022-04-07 17:03htmlunit抓取动态网页(我们自己解析url数据访问你的api好了(组图)
)
最近会先抓取大量的数据并存储起来,然后再讨论现有的历史数据。其中,东方财富网有很多数据,其中之一就是机构研究的数据。
我们要抓取的是js生成的表格。
这种用js爬的网站可没那么简单。它基本上分为几种方法。一种是观察页面,有的有json数据,有的有js代码解析目标url;一是使用渲染工具;另一种是使用工具点击相关按钮抓取url进行进一步分析。
今天我们使用第三个。
我们希望爬取表格中的数据,但是仔细看html代码会发现,这其实是js生成的,下图是源代码截图。
这很尴尬,我该怎么办?让我们自己解析url数据来访问你的api。
我们用浏览器自带的解析功能试试吧。首先,我们打开网络,chrome内核好像是这样叫的。
然后我们点击第二页和第三页,观察js代码访问了哪些后台url。事实是这样
YnQNqDYj¶m=&sortRule=-1&sortType=0&rt=50585869
strLvpoP¶m=&sortRule=-1&sortType=0&rt=50585871
ggPyhcCU¶m=&sortRule=-1&sortType=0&rt=50585871
SjIkKWnA¶m=&sortRule=-1&sortType=0&rt=50585872
我们可以找到模式,本质上是改变paee后面的数字。至于最后一个数字,目前猜测是计数标记,在所有API中设置相同即可。
接下来,我们可以使用urllib来获取api后面的json内容,例如: