动态网页抓取(北京大学介绍如何解决ajax动态加载页面的问题(图))

优采云 发布时间: 2022-01-15 03:03

  动态网页抓取(北京大学介绍如何解决ajax动态加载页面的问题(图))

  1、遇到问题的描述

  最近需要爬取一个网站里面的内容。网页中的内容有下拉选项,如图:

  

  笔者一直以为这是打开网页“查看元素”的下拉框选项,如下图:

  

  作者搜索过的下拉框没有选项,我一头雾水。我将问题描述给其他人,然后我知道这是一个 Ajax 动态加载页面。所以我去采集数据来解决问题。

  2、问题解决方案

  找到一篇文章《通过ajax动态加载页面(实时监控*敏*感*词*新闻和新闻)(url:)》,介绍了ajax动态加载页面。用户每次发送请求,页面都会不时改变,但其 URL 不会改变。将改变。下面,笔者自行抓取:在中国教育在线,北大各省不同批次不同学科的录取分数,为例介绍如何解决ajax动态加载页面的问题。

  打开网页 ---> 'View Elements' ---> 'Network' --> 刷新页面:

  

  在这张图中,点击左栏可以找到你需要的信息,在右栏中可以得到对应的网页源URL和响应头信息。作者需要的可以根据请求的URL得到:

  

  图片中的网站是北京大学。查询北京一批理科录取分数线。发现网站里的数字都是正则的,所以修改网站里的数字,得到其他省份的录取分数。

  3、 根据规则爬取网页

  其余部分是静态页面获取和提取所需信息的部分。当然,除了发现 URL 规则和修改规则之外,还有一种发送请求响应的方法。这部分作者就不细说了,有兴趣的读者可以自行查找资料。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线