抓取ajax动态网页java(编辑收藏所属分类:Misc0.0.0.3)
优采云 发布时间: 2021-09-11 10:14抓取ajax动态网页java(编辑收藏所属分类:Misc0.0.0.3)
之前发布的Krabber在执行Javascript后已经可以抓取网页了。
例如,新浪博客上的评论是在网页加载后通过JavaScript显示的。这样普通的爬虫plus是获取不到评论信息的。 Krabber 0.0.0.2 已经可以抓取将要执行的 JavaScript 网页,并在 JavaScript 执行后返回收录所需信息的网页 HTML。
现在的问题是网页上的很多内容需要用户交互才能显示结果。例如,基于基于 JavaScript 的评论结果的翻页。直接使用Krabber0.0.0.2只能得到第一页的结果。看到下面的评论,必须点击翻页,等待JavaScript执行后才能看到结果。所以,这个版本的主要目标是实现一个系统,可以模拟用户的动作,触发一些网页上的事件,比如点击下一页,然后抓取JavaScript执行结果。
此版本的 Krabber 0.0.0.3 Preview 已实现在网页上执行 AJAX 脚本。 Krabber0.0.0.3 Pre提供脚本执行机制,让信息抽取工具提供需要执行的内容,由Krabber执行,执行后的结果由克拉伯。
当然,当前的Preview在执行后是无法返回信息的,但是已经可以展示AJAX的执行过程了。有兴趣的可以看看这个原型系统。
Krabber 0.0.0.3 预览版由 pinlin:senior 编写,
发表于 2009-12-12 10:13 高级阅读(1774)评论(0)编辑采集类别:杂项)