网页信息抓取软件(SysNucleusWebHarvy的软件特点及特点介绍-苏州安嘉)

优采云发布时间: 2021-11-19 17:14

　　SysNucleus WebHarvy 是一款专业的网页数据采集工具。采用自动检测方式，智能识别网页数据模式。它可以抓取网页中的重要数据，将数据导出到数据库和文件夹中，并支持多页面提取。资料，从事网站管理软件的朋友可以到本站下载！

　　软件特点

　　1、点击界面

　　WebHarvy 是一个可视化的网络爬虫。绝对不需要编写任何脚本或代码来抓取数据。您将使用 WebHarvy 的内置浏览器来浏览网络。您可以选择要单击的数据。这很简单！

　　2、自动模式检测

　　WebHarvy 自动识别网页中出现的数据模式。因此，如果您需要从网页中抓取项目列表（姓名、地址、电子邮件、价格等），则无需执行任何其他配置。如果数据重复，WebHarvy 会自动删除它。

　　3、导出捕获的数据

　　您可以以多种格式保存从网页中提取的数据。当前版本的 WebHarvy Web Scraper 允许您将抓取的数据导出为 Excel、XML、CSV、JSON 或 TSV 文件。您还可以将捕获的数据导出到 SQL 数据库。

　　4、从多个页面中提取数据

　　通常，网页会在多个页面上显示产品列表等数据。WebHarvy 可以自动从多个页面抓取和提取数据。只需指出“链接到下一页”，WebHarvy Web Scraper 就会自动从所有页面中抓取数据。

　　5、基于关键字的抓取

　　通过在搜索表单中自动提交输入关键字列表来抓取数据。可以将任意数量的输入关键字提交到多个输入文本字段以执行搜索。可以提取所有输入关键字组合的搜索结果数据。

　　6、类别抽取

　　WebHarvy Web Scraper 允许您从链接列表中获取数据，从而在网站中生成相似的页面/列表。这允许您使用单个配置来抓取网站内的类别和子类别。

　　7、正则表达式

　　WebHarvy 允许您在网页的文本或 HTML 源代码上应用正则表达式 (RegEx) 并删除匹配的部分。这种强大的技术为您在抓取数据时提供了更大的灵活性。

　　8、运行 JavaScript

　　在提取数据之前在浏览器中运行您自己的 JavaScript 代码。这可用于与页面元素交互或调用已在目标页面中实现的 JavaScript 函数。

　　9、下载图片

　　您可以下载图像或提取图像 URL。WebHarvy 可以自动提取显示在电子商务网站的商品详情页面中的多张图片。

　　10、浏览器自动交互

　　WebHarvy 可以轻松配置为执行任务，例如单击链接、选择列表/下拉选项、在字段中输入文本、滚动页面等。

　　SysNucleus WebHarvy 安装教程

　　1、双击安装文件进入欢迎界面，点击下一步

　　2、阅读许可协议，勾选“我接受...”同意协议

　　3、选择安装位置

　　4、确认安装信息，点击“安装”

　　5、安装完成

0

2021-11-19

网页信息抓取软件

0 个评论

要回复文章请先登录或注册