SysNucleus WebHarvy(网页数据采集器)下载
优采云 发布时间: 2020-08-29 02:16SysNucleus WebHarvy(网页数据采集器)下载
SysNucleus WebHarvy是一款非常好用的网页数据采集软件,它可以帮助用户轻松的从网页上提取数据并保存为不同的格式,还支持提取视频、图片等各类类型的文件。
软件特色
1、SysNucleus WebHarvy可以使您剖析网页上的数据
2、可以显示从一个HTML地址上剖析联接数据
3、可以延展到下一个网页页面
4、可以指定搜索数据的范围以及内容
5、可以将扫描的图片下载保存
6、支持在浏览器上复制链接搜索
7、支持配置对应资源项目搜索
8、可以使用项目名称以及资源名称查找
9、SysNucleus WebHarvy可以轻松提取数据
10、提供更中级的多成语搜索以及多页搜索
软件功能
1、视觉点和点击界面
WebHarvy是一个可视化的网页提取工具。其实完全没有必要编撰任何脚本或代码拿来提取数据。使用WebHarvy的外置浏览器浏览网页。您可以选择用滑鼠点击来提取数据。它是这么容易!
2、智能辨识模式
自动辨识网页中出现的数据模式。所以,如果你须要从一个网页刮项目(姓名,地址,电子邮件,价格等)的列表,你不需要做任何额外的配置。如果数据重复,WebHarvy会手动刮。
3、导出捕获的数据
可以保存从各类格式的网页中提取的数据。 WebHarvy网站刮板的当前版本容许你导入的刮数据作为XML,CSV,JSON或TSV文件。您还可以刮下数据导入到一个SQL数据库。
4、从多个页面提取
通常网页显示数据,如在多个页面中的产品目录。 WebHarvy可以手动抓取并从多个网页中提取数据。只是强调了“链接到下一页和WebHarvy网站刮板将手动刮从所有页面的数据。
5、基于关键字的提取
基于关键字的提取可使您捕捉从搜索结果页面输入关键字的列表数据。您创建的配置将被手动重复所有给定输入关键字,而挖掘的数据。可以指定任意数目的输入关键字6、通过代{过}{滤}理服务器提取
提取匿名和避免提取网路软件被封锁的Web服务器,您必须通过代{过}{滤}理服务器访问目标网站的选项。可以使用一个单一的代{过}{滤}理服务器地址或代{过}{滤}理服务器的地址列表。
7、提取分类
WebHarvy网站刮板容许您从一个链接列表,从而造成一个网站内的相像页面抽取数据。这让您可以使用一个单一的配置刮网站内的类别或小节。
8、使用正则表达式提取
WebHarvy可以应用正则表达式(正则表达式)在文本或网页的HTML源代码,并提取去匹配的部份。这种强悍的技术为您提供了更多的灵活性,同时拼抢的数据。