java爬虫抓取网页数据(如何知道这个网站是动态加载的动态数据?(组图))
优采云 发布时间: 2021-10-05 00:08java爬虫抓取网页数据(如何知道这个网站是动态加载的动态数据?(组图))
大多数学习 Python 的人都在使用 Python 作为爬虫。毕竟,Python 是爬虫的最佳选择。
但是一般简单的静态页面网站还是很容易爬取的。对于很多动态加载的网站,我不知道该怎么办。今天给大家介绍两个动态爬虫js加载动态。数据,希望对爬虫有帮助!
今天就以高考查询网站为例!
我怎么知道这个 网站 是动态加载的数据?
使用浏览器,这里我建议使用火狐或者谷歌,大家一定都知道
打开你的网页,右键查看页面源码,ctrl+F查询输入293,源码没有这个值,说明数据是动态加载的。
它的网站是:数字代表的页数。共计165页
所以获取所有的url地址非常简单
对于动态加载数据,我们通常使用两种方法:
使用selenium分析网页元素,找到数据的原创网页,提交表单,获取不同的数据,达到爬取的目的。
方法一硒:
为什么要写这个,代码注明注释!
总结:通过对数据的分析,写出上面的搜索方法,就可以得到所有的数据了。通过这种方式获取数据简单直观,但缺点是速度太慢。方法二分析网页元素,找出数据的原创网页,提交表单,获取不同的数据,达到爬取的目的。:
既然要分析网页元素,首先要使用开发者工具。按 F12 打开浏览器自带的开发者工具。如下所示
分析显示json类型的列就是我们需要的数据
检查消息头中的请求网站:
真正的请求网站:
范围:
messtype=jsonp&callback=jQuery3805365803_58&luqutype3=&province3=&year3=&luqupici3=&page=2&size=10&_=03
也可以点击右边的参数栏查看参数
详细代码
方法非常简单。最主要的是自己练习。只有通过实践,你才能了解真相。学习在岸边游泳是不可能的。爬取JS加载的动态数据有两种简单的方法。方法很简单。你学会了吗?现在就试试!