输入关键字 抓取所有网页( SysNucleusWebHarvy提取WebHarvy的方法有哪些?软件特色特色介绍)
优采云 发布时间: 2022-03-21 17:19输入关键字 抓取所有网页(
SysNucleusWebHarvy提取WebHarvy的方法有哪些?软件特色特色介绍)
SysNucleus WebHarvy 是一款非常优秀的网页数据采集工具。使用本软件,可以快速抓取网页文件和图片信息数据,操作方法非常简单。如果您需要,请尽快下载。
软件功能
一、直观的操作界面
WebHarvy 是一个可视化网页提取工具。事实上,完全不需要编写任何脚本或代码来提取数据。使用 webharvy 的内置浏览器浏览网页。您可以选择通过单击鼠标来提取数据。它是如此容易!
二、智能识别模式
WebHarvy 自动识别出现在网页中的数据模式。因此,如果您需要从网页中抓取项目列表(姓名、地址、电子邮件、价格等),则无需进行任何额外配置。如果数据重复,WebHarvy 会自动抓取它。
三、导出捕获的数据
可以保存从各种格式的网页中提取的数据。当前版本的 WebHarvy网站 抓取器允许您将抓取的数据导出为 XML、CSV、JSON 或 TSV 文件。您还可以将抓取的数据导出到 SQL 数据库。
四、从多个页面中提取
网页通常会在多个页面中显示数据,例如产品目录。WebHarvy 可以自动从多个网页中抓取和提取数据。只需指出“指向下一页的链接”,WebHarvy网站 抓取工具就会自动从所有页面抓取数据。
五、基于关键字的提取
基于关键字的提取允许您捕获从搜索结果页面输入的关键字的列表数据。在挖掘数据时,将为所有给定的输入关键字自动重复您创建的配置。可以指定任意数量的输入关键字
六、提取分类
WebHarvy网站 抓取器允许您从链接列表中提取数据,这些链接指向 网站 中的类似页面。这允许您使用单个配置来抓取 网站 中的类别或子部分。
七、使用正则表达式提取
WebHarvy 可以将正则表达式(regular expressions)应用于网页的文本或 HTML 源代码,并提取不匹配的部分。这种强大的技术在抓取数据时为您提供了更大的灵活性。
安装教程
1、双击“Setup.exe”开始软件安装
2、点击下一步显示协议并选择我同意
3、选择安装位置,默认为“C:\Users\Administrator\AppData\Roaming\SysNucleus\WebHarvy\”
4、如下图,点击install进行安装
5、稍等片刻,WebHarvy的安装就完成了