网页信息抓取软件(编辑收藏所属分类:Misc0.0.0.3)
优采云 发布时间: 2022-01-15 20:19网页信息抓取软件(编辑收藏所属分类:Misc0.0.0.3)
之前发布的 Krabber 在执行 Javascript 后已经可以抓取网页。
比如新浪博客的评论,页面加载后通过JavaScript显示内容。这么普通的爬虫是拿不到评论信息的。Krabber 0.0.0.2 已经可以爬取必须执行的 JavaScript 网页,并在 JavaScript 执行后返回带有所需信息的网页的 HTML。
现在的问题是网页上的很多内容都需要用户交互才能显示结果。比如基于 JavaScript 的评论结果翻页。直接使用 Krabber 0.0.0.2 只会得到第一页的结果。要查看以下评论,您必须单击页面并等待 JavaScript 执行,然后才能看到结果。所以这个版本的主要目标是实现一个可以模拟用户动作,触发网页上的一些事件,比如点击下一页,然后抓取JavaScript的执行结果的方法。
这个版本的 Krabber 0.0.0.3 Preview 已经实现了在网页上执行 AJAX 脚本。Krabber 0.0.0.3 Pre 提供了脚本执行机制,让信息抽取工具提供需要执行的内容,然后交给 Krabber 执行,然后Krabber 在执行后返回结果。
当然,当前的Preview不能返回执行后的信息,但是已经能够展示执行AJAX的过程了。如果你有兴趣,可以看看这个原型系统。
Krabber 0.0.0.3 预览 pinlin:senior, [emailprotected]
发表于 2009-12-12 10:13 高级阅读(1774) 评论(0) 编辑采集类别:杂项