输入关键字 抓取所有网页(智能识别模式自动识别网页中出现的数据模式-苏州安嘉)
优采云 发布时间: 2021-09-15 02:10输入关键字 抓取所有网页(智能识别模式自动识别网页中出现的数据模式-苏州安嘉)
WebHarvy 是一款功能强大的应用程序,旨在使您能够自动从网页中提取数据并以不同格式保存提取的内容。从网页捕获数据就像导航到收录数据的页面并单击数据捕获一样简单,智能识别网页上发生的数据模式。
[特点]
视觉点和点击界面
WebHarvy 是一款可视化网页提取工具。实际上,无需编写任何脚本或代码来提取数据。使用 WebHarvy 的内置浏览器浏览网页。您可以选择通过单击鼠标来提取数据。就是这么简单!
智能识别模式
自动识别出现在网页中的数据模式。因此,如果您需要从网页中抓取项目列表(姓名、地址、电子邮件、价格等),则无需进行任何额外配置。如果数据重复,WebHarvy 会自动抓取它。
导出捕获的数据
可以保存从各种格式的网页中提取的数据。当前版本的 WebHarvy网站scraper 允许您将抓取的数据导出为 XML、CSV、JSON 或 TSV 文件。您还可以将抓取的数据导出到 SQL 数据库。
从多个页面中提取
通常网页显示数据,例如多个页面上的产品目录。 WebHarvy 可以自动从多个网页中抓取和提取数据。刚刚指出“链接到下一页”,WebHarvy网站scraper 会自动从所有页面抓取数据。
基于关键字的提取
基于关键字的提取允许您捕获从搜索结果页面输入的关键字的列表数据。在挖掘数据时,您创建的配置将自动为所有给定的输入关键字重复。您可以指定任意数量的输入关键字
代表{pass}{filter}从服务器提取
要提取匿名,防止提取web软件被web服务器拦截,必须通过代理服务器访问目标网站的选项。您可以使用单个代理服务器地址或代理服务器地址列表。
提取分类
WebHarvy网站scraper 允许您从链接列表中提取数据,从而在网站 中生成类似的页面。这允许您使用单个配置在 网站 中抓取类别或小节。
使用正则表达式提取
WebHarvy 可以在网页的文本或 HTML 源代码中应用正则表达式(regular expressions),并提取匹配的部分。这项强大的技术可让您在争夺数据的同时获得更大的灵活性。
【使用方法】
1、启动软件,提示并解锁,即需要添加官方license文件才能使用
2、解压下载的文件,双击“URET NFO v2.2.exe”即可
3、 提醒您 SysNucleus WebHarvy 软件已授权给 SMR
4、 导航到需要提取数据的网页。您可以使用内置浏览器加载和浏览网页
5、要捕获文本的一部分,请选择它并突出显示它。在选择下面的选项之前,确定所需的部分。
6、只要输入你分析的网页地址,最上面的网址就是地址输入栏
7、输入地址直接在网页上打开
8、选择配置功能,可以点击第一个Start Config开始配置下载网页数据的计划