网页信息抓取软件(编辑收藏所属分类:Misc0.0.0.3)

优采云发布时间: 2022-01-15 20:19

　　之前发布的 Krabber 在执行 Javascript 后已经可以抓取网页。

　　比如新浪博客的评论，页面加载后通过JavaScript显示内容。这么普通的爬虫是拿不到评论信息的。Krabber 0.0.0.2 已经可以爬取必须执行的 JavaScript 网页，并在 JavaScript 执行后返回带有所需信息的网页的 HTML。

　　现在的问题是网页上的很多内容都需要用户交互才能显示结果。比如基于 JavaScript 的评论结果翻页。直接使用 Krabber 0.0.0.2 只会得到第一页的结果。要查看以下评论，您必须单击页面并等待 JavaScript 执行，然后才能看到结果。所以这个版本的主要目标是实现一个可以模拟用户动作，触发网页上的一些事件，比如点击下一页，然后抓取JavaScript的执行结果的方法。

　　这个版本的 Krabber 0.0.0.3 Preview 已经实现了在网页上执行 AJAX 脚本。Krabber 0.0.0.3 Pre 提供了脚本执行机制，让信息抽取工具提供需要执行的内容，然后交给 Krabber 执行，然后Krabber 在执行后返回结果。

　　当然，当前的Preview不能返回执行后的信息，但是已经能够展示执行AJAX的过程了。如果你有兴趣，可以看看这个原型系统。

　　Krabber 0.0.0.3 预览 pinlin:senior, [emailprotected]

　　发表于 2009-12-12 10:13 高级阅读(1774) 评论(0) 编辑采集类别：杂项

0

2022-01-15

网页信息抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页信息抓取软件(编辑收藏所属分类:Misc0.0.0.3)

0 个评论

发起人