SysNucleus WebHarvy(网页数据采集器)V5.2.0.155
优采云 发布时间: 2020-08-08 17:45SysNucleus WebHarvy是一个非常易于使用的网页数据采集软件. 它可以帮助用户轻松地从网页中提取数据并将其保存为不同的格式. 它还支持提取各种类型的文件,例如视频和图片.
软件功能
1. SysNucleus WebHarvy允许您分析网页上的数据
2. 它可以显示和分析来自HTML地址的连接数据
3. 可以扩展到下一个网页
4. 您可以指定搜索数据的范围和内容
5. 您可以下载并保存扫描的图像
6. 支持在浏览器上复制链接搜索
7. 支持配置搜索对应的资源项
8,您可以使用项目名称和资源名称查找
9,SysNucleus WebHarvy可以轻松提取数据
10. 提供更高级的多词搜索和多页搜索
软件功能
1. 视觉点和点击界面
WebHarvy是一个可视网页提取工具. 实际上,无需编写任何脚本或代码来提取数据. 使用WebHarvy的内置浏览器浏览网络. 您可以选择单击鼠标提取数据. 很简单!
2. 智能识别模式
自动识别网页中出现的数据模式. 因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置. 如果数据重复,WebHarvy将自动对其进行刮擦.
3. 导出捕获的数据
可以保存从网页提取的各种格式的数据. 当前版本的WebHarvy网站抓取工具允许您将抓取的数据导出为XML,CSV,JSON或TSV文件. 您还可以将抓取的数据导出到SQL数据库.
4. 从多个页面中提取
通常,网页在多个页面上显示数据,例如产品目录. WebHarvy可以自动从多个网页爬网和提取数据. 刚刚指出“链接到下一页,WebHarvy网站抓取工具将自动从所有页面抓取数据.
5. 基于关键字的提取
基于关键字的提取使您可以捕获从搜索结果页面输入的关键字的列表数据. 挖掘数据时,将为所有给定的输入关键字自动重复创建的配置. 您可以指定任意数量的输入关键字. 6.通过生成{pass} {filter}服务器提取
要提取匿名信息并防止Web服务器提取Web软件,必须使用{pass} {filter}代理服务器访问目标网站选项. 您可以使用一个代理服务器地址或代理服务器地址列表.
7. 提取分类
WebHarvy网站抓取工具使您可以从链接列表中提取数据,这些链接可指向网站内的相似页面. 这样一来,您就可以使用一种配置来抓取网站中的类别或部分.
8. 使用正则表达式提取
WebHarvy可以在网页的文本或HTML源代码中应用正则表达式(正则表达式),并提取匹配的部分. 这项强大的技术为您提供了更大的灵活性,同时您可以争夺数据.