vb抓取网页内容(2.-java使用浏览器内核模拟浏览器操作驱动包下载地址)

优采云 发布时间: 2022-04-09 15:01

  vb抓取网页内容(2.-java使用浏览器内核模拟浏览器操作驱动包下载地址)

  互联网提供了大量的数据,有时需要抓取网页上的数据。通过程序采集的数据可实现自动化处理。与手动打开网页查看和处理数据相比,效率显着提高。

  因为有些网页的内容是通过ajax方式通过js请求后端数据后在页面上设置的,所以此时无法通过httpclient的方式获取页面的数据。此时,您可以使用模拟浏览器访问该页面。浏览器下载页面的js后,会解析并执行相关操作。

  通过selenium-java,使用浏览器内核模拟浏览器操作,访问网页,解析并执行js,生成完整的页面内容,然后通过接口解析返回的数据。

  1. 下载驱动包

  下载地址为:CNPM Binaries Mirror

  这里使用的是谷歌浏览器,所以下载了对应版本的windows和linux驱动。此外,可以使用诸如 firefox 之类的浏览器内核。

  

  2. 创建maven项目并配置依赖

  

org.seleniumhq.selenium

selenium-java

3.141.59

  3. 配置驱动程序?

  // 设置 chromedirver 的存放位置

System.getProperties().setProperty("webdriver.chrome.driver", "D:/tools/chromedriver_win32/chromedriver.exe");

  驱动程序的位置需要在代码中指定。windows和linux平台下,需要分别指定对应的驱动路径。?

  4. 代码实现

  import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.chrome.ChromeDriver;

import org.openqa.selenium.chrome.ChromeOptions;

public class FindDataDemo {

private void seleniumProcess() {

String uri = "http://tools.2345.com/rili.htm";

// 设置 chromedirver 的存放位置

System.getProperties().setProperty("webdriver.chrome.driver", "D:/sdks/tools/chromedriver_win32/chromedriver.exe");

// 设置浏览器参数

ChromeOptions chromeOptions = new ChromeOptions();

chromeOptions.addArguments("--no-sandbox");//禁用沙箱

chromeOptions.addArguments("--disable-dev-shm-usage");//禁用开发者shm

chromeOptions.addArguments("--headless"); //无头浏览器,这样不会打开浏览器窗口

WebDriver webDriver = new ChromeDriver(chromeOptions);

webDriver.get(uri);

WebElement webElements = webDriver.findElement(By.id("yi"));

System.out.println("webElements = " + webElements);

System.out.println("webElements.getText() = " + webElements.getText());

String pageSource = webDriver.getPageSource();

System.out.println("webElements = " + pageSource);

webDriver.close();

}

public static void main(String[] args) {

long startTime = System.currentTimeMillis();

FindDataDemo findDataDemo = new FindDataDemo();

findDataDemo.seleniumProcess();

long endTime = System.currentTimeMillis();

System.out.println("(endTime - startTime) = " + (endTime - startTime));

}

}

  执行测试程序,可以看到获取到页面上的内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线