htmlunit抓取动态网页(SIMONE2012-01-12:14:11:00的html源码一并)

优采云 发布时间: 2021-11-30 02:19

  htmlunit抓取动态网页(SIMONE2012-01-12:14:11:00的html源码一并)

  我找到了一个很好的模拟浏览器包htmlunit,可以直接访问网站地址并执行相应的JavaScript脚本;这个功能对网站爬虫很有帮助,一些网站Ajax用的。如果使用简单的http访问,则只能抓取原创html源码,无法获取页面中执行的ajax;使用这个包后,可以在执行ajax后抓取html源代码。取下来。

  网站地址:

  网站下面也提到了几个类似的包:HtmlUnit 被不同的开源工具用作底层“浏览器”,如 Canoo WebTest、JWebUnit、WebDriver、JSFUnit、Celerity ......

  看看canoo WebTest,但是不知道怎么用,也不想多了解。

  jwebunit 用于 网站 测试。集成了JUnit、htmlunit、selenium封装框架;主要功能是做白盒测试和压力测试。

  webDriver 后来更名为 selenium,它集成了 htmlunit、Firefox 浏览器、IE 浏览器、opare 浏览器驱动。如果使用 htmlunitDriver,则使用 htmlunit 包访问站点;如果使用FirefoxDriver,则直接调用Firefox浏览器,然后在浏览器上模拟文本输入等鼠标键盘事件。

  访问htmlunit包后网站,获取html源码后可以修改源码; jwebunit和selenium暂时没有找到修改的功能,只是用来模拟用户操作。

  

  西蒙尼 2012-01-12 14:11

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线