java爬虫抓取网页数据(如何知道这个网站是动态加载的动态数据?(组图))

优采云 发布时间: 2021-10-05 00:08

  java爬虫抓取网页数据(如何知道这个网站是动态加载的动态数据?(组图))

  大多数学习 Python 的人都在使用 Python 作为爬虫。毕竟,Python 是爬虫的最佳选择。

  但是一般简单的静态页面网站还是很容易爬取的。对于很多动态加载的网站,我不知道该怎么办。今天给大家介绍两个动态爬虫js加载动态。数据,希望对爬虫有帮助!

  

  今天就以高考查询网站为例!

  我怎么知道这个 网站 是动态加载的数据?

  使用浏览器,这里我建议使用火狐或者谷歌,大家一定都知道

  打开你的网页,右键查看页面源码,ctrl+F查询输入293,源码没有这个值,说明数据是动态加载的。

  

  它的网站是:数字代表的页数。共计165页

  所以获取所有的url地址非常简单

  

  对于动态加载数据,我们通常使用两种方法:

  使用selenium分析网页元素,找到数据的原创网页,提交表单,获取不同的数据,达到爬取的目的。

  

  方法一硒:

  

  为什么要写这个,代码注明注释!

  总结:通过对数据的分析,写出上面的搜索方法,就可以得到所有的数据了。通过这种方式获取数据简单直观,但缺点是速度太慢。方法二分析网页元素,找出数据的原创网页,提交表单,获取不同的数据,达到爬取的目的。:

  既然要分析网页元素,首先要使用开发者工具。按 F12 打开浏览器自带的开发者工具。如下所示

  

  分析显示json类型的列就是我们需要的数据

  检查消息头中的请求网站:

  真正的请求网站:

  范围:

  messtype=jsonp&callback=jQuery3805365803_58&luqutype3=&province3=&year3=&luqupici3=&page=2&size=10&_=03

  也可以点击右边的参数栏查看参数

  

  详细代码

  

  方法非常简单。最主要的是自己练习。只有通过实践,你才能了解真相。学习在岸边游泳是不可能的。爬取JS加载的动态数据有两种简单的方法。方法很简单。你学会了吗?现在就试试!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线