htmlunit抓取动态网页(发现一个很不错的模拟浏览器包访问网站后的html源码)

优采云 发布时间: 2021-11-15 02:17

  htmlunit抓取动态网页(发现一个很不错的模拟浏览器包访问网站后的html源码)

  我找到了一个很好的模拟浏览器包htmlunit,可以直接访问网站地址并执行相应的JavaScript脚本;这个功能对网站爬虫很有帮助,一些网站Ajax用的。如果使用简单的http访问,只能抓取原创html源代码,无法获取页面中执行的ajax;使用这个包后,可以在执行ajax后抓取html源代码。取下来。

  网站地址:

  网站下面也提到了几个类似的包:HtmlUnit 被不同的开源工具用作底层的“浏览器”,如 Canoo WebTest、JWebUnit、WebDriver、JSFUnit、Celerity、...

  看看canoo WebTest,但是不知道怎么用,也不想多了解。

  jwebunit 用于 网站 测试。集成了JUnit、htmlunit、selenium包框架;主要功能是做白盒测试和压力测试。

  webDriver 后来更名为 selenium,它集成了 htmlunit、Firefox 浏览器、IE 浏览器、opare 浏览器驱动。如果使用 htmlunitDriver,则使用 htmlunit 包访问站点;如果使用FirefoxDriver,则直接调用Firefox浏览器,然后在浏览器上模拟文本输入等鼠标键盘事件。

  htmlunit包访问网站后,获取html源码后可以修改源码; jwebunit和selenium暂时没有找到修改的功能,只是用来模拟用户操作。

  具体应用示例:

  %D0%C7%D2%B9%BB%D8%D4%B5/blog/item/27ccf9963443c2177af48042.html

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线