网页源代码抓取工具(网页数据结构化抓取工具(:Powercap网页化))
优采云 发布时间: 2021-10-08 04:33网页源代码抓取工具(网页数据结构化抓取工具(:Powercap网页化))
软件名称:Powercap web数据结构化爬虫工具绿色版
软件版本:1.6
软件大小:5.6mb
授权方式:试用版
作品类型:国产软件
应用平台:Win2000/XP/2003/Win7/Vista
软件语言:简体中文
开发者网址:
开发者邮箱:
下载链接:
软件界面图:
软件介绍:
PowerCap是一款专业的网络信息采集解决方案,可以采集任何类型的网站采集信息,如新闻网站、电子商务网站、论坛、求职网站等支持登录采集、跨页采集、多页合并、增量采集、点击导航、POST 采集、脚本支持、内置人体提取算法,自动采集图片、flash等附件。可以发布到任何ODBC数据库、Excel、Access中,也可以通过Web在线发布。
最新的1.6 版本目前支持以下功能:
* 自动登录或手动登录后采集页面
* 支持Javascript脚本生成的页面
* 定时自动爬行
* 正文提取算法自动去除页面中的广告
* 增量采集
* 多页合并功能
* 自动提取分布在多个页面上的信息
* 自动提取图片、flash等附件
* 点击导航
* 向导式定义抽取规则,抽取方式丰富(前后符号、正则表达式、智能字段、内置字段等)
* POST采集
* 采集页面保存为单个文件
* 使用插件处理采集页面
* 支持VBScript、JavaScript处理采集结果
* 输出到文本文件、Excel、Access、任何支持ODBC的数据库,并在网页上在线发布
* 全局替换抓取的内容
* 意外退出保护,服务器无人值守抓取
与以往爬虫软件相比的优势:
* 采集Anti-leech网站:目前很多网站采用了anti-leech技术来防止采集,PowerCap有效支持anti-leech采集技术
* JavaScript 输出网站:对于使用大量脚本输出页面内容的网页,传统的采集技术无能为力。在PowerCap中,我们独有的脚本支持技术可以应对这种网站
* 脚本跳转:PowerCap可以完美支持使用脚本进行页面导航的网站
* POST采集:传统软件只能在一级起始URL上使用POST采集,而Powercap可以在任何一级进行POST采集
* 限速采集:可以限制网站的爬取速度,防止被某些网站拦截
官方 网站: