htmlunit抓取动态网页(我们自己解析url数据访问你的api好了(组图) )

优采云 发布时间: 2022-04-07 17:03

  htmlunit抓取动态网页(我们自己解析url数据访问你的api好了(组图)

)

  最近会先抓取大量的数据并存储起来,然后再讨论现有的历史数据。其中,东方财富网有很多数据,其中之一就是机构研究的数据。

  我们要抓取的是js生成的表格。

  这种用js爬的网站可没那么简单。它基本上分为几种方法。一种是观察页面,有的有json数据,有的有js代码解析目标url;一是使用渲染工具;另一种是使用工具点击相关按钮抓取url进行进一步分析。

  今天我们使用第三个。

  

  我们希望爬取表格中的数据,但是仔细看html代码会发现,这其实是js生成的,下图是源代码截图。

  

  这很尴尬,我该怎么办?让我们自己解析url数据来访问你的api。

  我们用浏览器自带的解析功能试试吧。首先,我们打开网络,chrome内核好像是这样叫的。

  

  然后我们点击第二页和第三页,观察js代码访问了哪些后台url。事实是这样

  YnQNqDYj¶m=&sortRule=-1&sortType=0&rt=50585869

  strLvpoP¶m=&sortRule=-1&sortType=0&rt=50585871

  ggPyhcCU¶m=&sortRule=-1&sortType=0&rt=50585871

  SjIkKWnA¶m=&sortRule=-1&sortType=0&rt=50585872

  我们可以找到模式,本质上是改变paee后面的数字。至于最后一个数字,目前猜测是计数标记,在所有API中设置相同即可。

  接下来,我们可以使用urllib来获取api后面的json内容,例如:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线