软件特色简单好用简单易学,易搜网页数据采集器
优采云 发布时间: 2021-01-17 08:02软件特色简单好用简单易学,易搜网页数据采集器
Easy Search Web Data采集器是一款非常有用的Web data采集软件,它为用户提供了非常方便的data采集方法,即使用户没有任何操作,其操作方法也简单便捷。专业知识您还可以轻松地快速开始和操作采集网页数据。轻松搜索网络数据采集器免费版不需要输入任何代码,只需输入URL地址,它可以自动帮助用户采集网络数据。
Easy Search Web Data采集器的正式版本具有非常强的系统兼容性,并支持在各种版本的操作系统上运行。有需要的用户可以访问此站点来下载此软件。
软件功能
简单易用
简单易学,可以通过可视界面,鼠标单击和向导模式访问采集数据。用户不需要任何技术基础,只需输入网址即可一键提取数据。小白守则福音。
大型采集模板
内置大量网站采集模板,涵盖多个行业,单击模板,即可加载数据,只需简单的配置,即可快速,准确地获取数据以满足各种采集的需求
自行开发的智能算法
通过自主研发的智能识别算法,可以自动识别列表数据并识别分页,准确率达到95%,可以深入采集多级页面快速准确地获取数据
自动导出数据
数据可以自动导出和发布,支持多种导出格式,例如TXT,CSV,Excel,Access,MySQL,SQLServer,SQLite,以及发布到网站界面(Api)等。
软件亮点
智能采集
智能分析和提取列表/表数据,并可以自动识别分页符。一键式免配置采集各种网站,包括分页,滚动加载,登录采集,AJAX等。
多平台支持
轻松搜索Web数据采集软件支持Windows操作系统的所有版本,并且可以在服务器上稳定运行。无论是个人采集还是团队/企业使用,它都可以满足您的各种需求。
多个数据导出
一键导出采集的所有数据。支持CSV,EXCEL和HTML等,还支持将数据导出到数据库,并且可以发布到Dedecms,Discuz,Wordpress,phpcms 网站。
数据本地存储
采集任务会自动保存到本地计算机,因此您不必担心丢失它们。登录该软件,您可以随时随地创建和修改采集个任务。
轻松搜索网络数据采集器教程
第一步,选择起始网址
当需要采集和网站数据时,首先需要找到一个地址以显示数据列表。这一步非常重要。起始网址确定采集数据的数量和类型。
以新浪新闻为例。我们想要捕获当前城市中各种本地新闻的新闻标题,发布时间和详细信息页面信息。
通过浏览网站,我们找到了所有新闻信息列表的地址
然后在轻松搜索网页数据采集器->步骤1->输入网页地址中创建一个新任务
然后单击下一步。
第二步,获取数据
进入第二步后,Blue Whale Visualization采集软件将智能地分析网页并从中提取列表数据。如下图所示:
这时,我们组织和修改分析的数据,例如删除无用的字段。
点击该列的下拉按钮,然后选择删除字段。
当然,还有其他操作,例如名称修改,数据处理等。
整理出修改后的字段后,我们来到采集处理分页。
选择分页设置->自动识别分页符,程序将自动找到下一个页面元素。
接下来,我们进入数据采集的列表页面,单击链接字段并单击以进入列表页面采集数据,如下所示:
第三步,高级设置
这包括浏览器的配置,例如禁用图像,禁用JS,禁用Flash,阻止广告等。通过这些配置,可以提高浏览器的加载速度。
配置计划任务,通过计划任务,您可以将任务设置为定期自动运行。
单击“完成”以保存任务。
完成,运行任务
创建任务后,我们选择新创建的任务,然后单击任务栏以开始。
如何从Easysearch网页数据中导出数据采集器
有2种导出方式:
通过右键单击任务->导出任务或导出视图数据来手动导出。
自动导出,请在编辑任务的第三步中设置导出。
数据导出后,将被标记为已导出,并且在下一次导出中将不再再次导出。如果要导出所有数据而不区分导出的内容,则可以选择“在查看数据中全部导出”。
导出为Excel,CSV,TXT
可以将数据导出到Excel,CSV,TXT文件,每次导出都会生成一个新文件。该软件支持为导出的文件名设置变量。根据任务名称和日期格式,当前有两种格式变量。
导出到网站界面(API)
支持主流cms网站系统,例如Discuz,Empirecms,Wordpress,DEDEcms,PHPcms,并且官方可以提供接口文件(API)。
对于开发人员,您可以自己定义网站API。轻松搜索网络数据采集器通过HTTP POST请求将数据发送到指定的API,只需设置相应的POST参数和编码类型即可。
导出到数据库
当前,轻松搜索Web数据采集器支持导出到四个数据库:MySQL,SQLServer,SQLite和Access。设置数据库的连接配置,并指定要导出的目标表的名称。
同时,您可以设置本地任务字段和目标数据库字段之间的映射关系(对应)
轻松搜索网络数据采集器值属性设置方法
首先,该字段通过XPath定位Html元素,然后我们需要通过value属性确定Html元素的哪一部分是字段值。
在通常情况下,采集器默认情况下使用InnerText属性(当前节点及其子节点的文本)
除了InnerText,还有其他一些内置属性:
文本,代表当前节点的文本
InnerHtml,它表示当前节点(不包括当前节点)内的HTML语句
OuterHtml,代表当前节点的HTML语句
除了内置属性外,用户还可以手动填写HTML属性。常见的HTML属性,例如A标签的href和IMG标签的src。代表数据的Data-*。
特殊提示
在这里,即使没有下拉选项,也可以手动输入属性名称。例如常见的onclick,值,类。