抓取ajax动态网页java(使用RSelenium包和Rwebdriver包都包的前期准备步骤及步骤)
优采云 发布时间: 2021-11-22 02:16抓取ajax动态网页java(使用RSelenium包和Rwebdriver包都包的前期准备步骤及步骤)
在pm2.5地图数据展示文章的R实现中,使用rvest包实现静态页面的数据抓取,但是rvest只能抓取静态网页,比如异步ajax加载动态网页结构无能为力。在R语言中,可以使用RSelenium包和Rwebdriver包来爬取此类网页。
RSelenium 包和 Rwebdriver 包都通过调用 Selenium Server 来模拟浏览器环境。其中Selenium是一款用于网页测试的Java开源软件,可以模拟浏览器的点击、滚动、滑动、文本输入等操作。由于Selenium 是Java 程序,因此在使用RSelenium 包和Rwebdriver 包之前,您必须为您的计算机设置Java 环境。下面是使用RSelenium包和Rwebdriver包的准备步骤:
一、下载并安装RSelenium包和Rwebdriver包
RSelenium包直接从CRAN下载安装,Rwebdriver包需要从github下载。下载过程参考install_github无法安装Rwebdriver包的解决方法
二、Java 环境设置
理论上是调用Java程序安装JRE(Java Runtime Environment),但本文推荐安装JDK(Java Development Kit)。 JDK收录JRE模块,网上找到的Java环境变量设置教程大多是针对JDK的。
1、 JDK 下载
本文档下载最新版本的jdk-11.0.1_windows-x64_bin.zip
2、JDK 安装
由于下载的是不需要安装的版本,直接解压文件放在D:\Program Files\java目录下。
3、环境变量设置(参考Java环境变量设置)
需要设置JAVA_HOME、CLASS_PATH、PATH三个环境变量
JAVA_HOME
D:\Program Files\java\jdk-11.0.1
类路径
%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
路径
%JAVA_HOME%\bin
设置三个环境变量后,打开cmd,输入javac。如果没有报错,则安装成功。
三、Selenium 及浏览器驱动下载及运行
1、下载selenium,网址是
下载最新版本,也可以去下载以前的版本。
2、下载浏览器驱动
Chrome 驱动程序:
火狐驱动程序:
下载时请注意浏览器的版本。如果使用Chrome浏览器,请参考selenium的chromedriver与chrome版本映射表(更新为v2.34).
本环境下下载的是最新版v2.44
3、打开cmd运行selenium和浏览器驱动。比如我用的是Chrome浏览器,所以输入java -Dwebdriver.chrome.driver="E:\Selenium\chromedriver.exe"-jarE:\Selenium\selenium-server-standalone-3.141.59.罐子
如果出现下图所示的界面,则启动成功(R语言调用RSelenium包和Rwebdriver包时,cmd不应关闭)。
四、到此所有前期准备工作已经完成,可以使用RSelenium包和Rwebdriver包了。
以RSelenium包为例
<p>library(RSelenium)
remDr