抓取ajax动态网页java(使用RSelenium包和Rwebdriver包都包的前期准备步骤及步骤)

优采云 发布时间: 2021-11-22 02:16

  抓取ajax动态网页java(使用RSelenium包和Rwebdriver包都包的前期准备步骤及步骤)

  在pm2.5地图数据展示文章的R实现中,使用rvest包实现静态页面的数据抓取,但是rvest只能抓取静态网页,比如异步ajax加载动态网页结构无能为力。在R语言中,可以使用RSelenium包和Rwebdriver包来爬取此类网页。

  RSelenium 包和 Rwebdriver 包都通过调用 Selenium Server 来模拟浏览器环境。其中Selenium是一款用于网页测试的Java开源软件,可以模拟浏览器的点击、滚动、滑动、文本输入等操作。由于Selenium 是Java 程序,因此在使用RSelenium 包和Rwebdriver 包之前,您必须为您的计算机设置Java 环境。下面是使用RSelenium包和Rwebdriver包的准备步骤:

  一、下载并安装RSelenium包和Rwebdriver包

  RSelenium包直接从CRAN下载安装,Rwebdriver包需要从github下载。下载过程参考install_github无法安装Rwebdriver包的解决方法

  二、Java 环境设置

  理论上是调用Java程序安装JRE(Java Runtime Environment),但本文推荐安装JDK(Java Development Kit)。 JDK收录JRE模块,网上找到的Java环境变量设置教程大多是针对JDK的。

  1、 JDK 下载

  本文档下载最新版本的jdk-11.0.1_windows-x64_bin.zip

  2、JDK 安装

  由于下载的是不需要安装的版本,直接解压文件放在D:\Program Files\java目录下。

  3、环境变量设置(参考Java环境变量设置)

  需要设置JAVA_HOME、CLASS_PATH、PATH三个环境变量

  JAVA_HOME

  D:\Program Files\java\jdk-11.0.1

  类路径

  %JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar

  路径

  %JAVA_HOME%\bin

  设置三个环境变量后,打开cmd,输入javac。如果没有报错,则安装成功。

  

  三、Selenium 及浏览器驱动下载及运行

  1、下载selenium,网址是

  

  下载最新版本,也可以去下载以前的版本。

  2、下载浏览器驱动

  Chrome 驱动程序:

  火狐驱动程序:

  下载时请注意浏览器的版本。如果使用Chrome浏览器,请参考selenium的chromedriver与chrome版本映射表(更新为v2.34).

  本环境下下载的是最新版v2.44

  

  3、打开cmd运行selenium和浏览器驱动。比如我用的是Chrome浏览器,所以输入java -Dwebdriver.chrome.driver="E:\Selenium\chromedriver.exe"-jarE:\Selenium\selenium-server-standalone-3.141.59.罐子

  

  如果出现下图所示的界面,则启动成功(R语言调用RSelenium包和Rwebdriver包时,cmd不应关闭)。

  

  四、到此所有前期准备工作已经完成,可以使用RSelenium包和Rwebdriver包了。

  以RSelenium包为例

<p>library(RSelenium)

remDr

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线