抓取ajax动态网页java(一个爬虫动态生成的网页是什么?一般来说怎么办 )

优采云 发布时间: 2021-10-04 04:06

  抓取ajax动态网页java(一个爬虫动态生成的网页是什么?一般来说怎么办

)

  最近,该公司想写一个爬虫项目。当它遇到一些由JS或Ajax动态生成的页面时,它发现webdriver是可靠的。至于htmlunit,它直接测试了一些网站异常,这对于JS支持可能不是特别好

  Webdriver通常有两种模式:本地潜水员和远程潜水员。由于爬虫程序最终将部署到Linux服务器上,并且只能在命令行上运行,因此浏览器似乎无法安装,因此本地驱动程序的进程无法完成,因此我们只能尝试远程驱动程序。幸运的是,我们发现了一个phantomjs的web驱动程序,它可以在没有Linux接口的情况下运行,因此我们选择它作为解决方案来处理JS动态生成web页面的问题

  下载到官网:,找到相应版本下载。提取并安装。输入bin目录并执行phantomjs。您需要带上启动参数并执行远程驱动程序的地址和端口。phantomjs——webdriver 127.0.0.1:10025

  Java连接:

  WebDriver driver = new RemoteWebDriver("http://127.0.0.1:10025", DesiredCapabilities.phantomjs());

driver.get("http://www.iteye.com");

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线