htmlunit抓取动态网页(SIMONE2012-01-12:14:11:00的html源码一并)
优采云 发布时间: 2021-11-30 02:19htmlunit抓取动态网页(SIMONE2012-01-12:14:11:00的html源码一并)
我找到了一个很好的模拟浏览器包htmlunit,可以直接访问网站地址并执行相应的JavaScript脚本;这个功能对网站爬虫很有帮助,一些网站Ajax用的。如果使用简单的http访问,则只能抓取原创html源码,无法获取页面中执行的ajax;使用这个包后,可以在执行ajax后抓取html源代码。取下来。
网站地址:
网站下面也提到了几个类似的包:HtmlUnit 被不同的开源工具用作底层“浏览器”,如 Canoo WebTest、JWebUnit、WebDriver、JSFUnit、Celerity ......
看看canoo WebTest,但是不知道怎么用,也不想多了解。
jwebunit 用于 网站 测试。集成了JUnit、htmlunit、selenium封装框架;主要功能是做白盒测试和压力测试。
webDriver 后来更名为 selenium,它集成了 htmlunit、Firefox 浏览器、IE 浏览器、opare 浏览器驱动。如果使用 htmlunitDriver,则使用 htmlunit 包访问站点;如果使用FirefoxDriver,则直接调用Firefox浏览器,然后在浏览器上模拟文本输入等鼠标键盘事件。
访问htmlunit包后网站,获取html源码后可以修改源码; jwebunit和selenium暂时没有找到修改的功能,只是用来模拟用户操作。
西蒙尼 2012-01-12 14:11