输入关键字 抓取所有网页(智能识别模式自动识别网页数据抓取工具的功能介绍)
优采云 发布时间: 2021-09-15 16:07输入关键字 抓取所有网页(智能识别模式自动识别网页数据抓取工具的功能介绍)
Webhard是一个网页数据捕获工具。该软件可以提取网页中的文本和图片,并通过输入网址将其打开。默认情况下,它使用内部浏览器,支持扩展分析,并可以自动获取类似链接的列表。软件界面直观,易于操作
功能介绍
智能识别模式
Webhard自动识别网页中出现的数据模式。因此,如果您需要从网页中获取项目列表(名称、地址、电子邮件、价格等),则无需进行任何其他配置。如果数据重复,webharvy将自动刮取数据
导出捕获的数据
您可以以各种格式保存从网页提取的数据。WebHarvy网站当前版本的scraper允许您将scraper数据导出为XML、CSV、JSON或TSV文件。您还可以刮取数据并将其导出到SQL数据库
从多个页面中提取
通常web页面显示数据,例如多个页面中的产品目录。Webhard可以自动从多个网页中获取和提取数据。只是指出“链接到下一页”和WebHarvy网站刮板将自动从所有页面中刮取数据
直观的操作界面
Webharvy是一个可视化的网页提取工具。事实上,不需要编写任何脚本或代码来提取数据。使用webharvy的内置浏览器浏览网页。您可以选择通过单击鼠标来提取数据。这太容易了
基于关键词的抽取
基于关键字的提取允许您捕获从搜索结果页面输入的关键字列表数据。挖掘数据时,您创建的配置将自动为所有给定的输入关键字重复。可以指定任意数量的输入关键字
提取分类
WebHarvy网站scraper允许您从链接列表中提取数据,从而在网站. 这允许您使用单个配置刮取网站内的类别或部分
使用正则表达式提取
Webhard可以在文本或网页的HTML源代码中应用正则表达式(正则表达式),并提取匹配的部分。这项功能强大的技术为您提供了更大的灵活性,同时还可以对数据进行争用
软件特性
Webharvy是一个可视化的web刮板。绝对不需要编写任何脚本或代码来捕获数据。您将使用webharvy的内置浏览器浏览web。您可以选择要单击的数据。这很容易
Webharvy自动识别网页中出现的数据模式。因此,如果您需要从网页中删除项目列表(名称、地址、电子邮件、价格等),则无需执行任何其他配置。如果数据重复,webharvy将自动删除它
您可以以多种格式保存从网页提取的数据。当前版本的webhard web scraper允许您将捕获的数据导出为excel、XML、CSV、JSON或TSV文件。您还可以将捕获的数据导出到SQL数据库
通常,web页面在多个页面上显示产品列表等数据。Webhard可以自动从多个页面抓取和提取数据。只要指出“链接到下一页”,webhard web scraper就会自动从所有页面抓取数据
更新日志
修复了页面启动时连接可能被禁用的问题
您可以为页面模式配置独占连接模式
您可以自动搜索可以在HTML上配置的资源