站群自动采集器(数据管理信息采集测试,你了解多少?(一))
优采云 发布时间: 2021-09-06 22:18站群自动采集器(数据管理信息采集测试,你了解多少?(一))
8、采集Test:这是任何其他类似的采集 软件都无法比拟的。程序支持直接查看采集结果并测试发布
9、 管理方便:采用站点+任务的方式管理采集节点,任务支持批量操作,更轻松的数据管理。功能介绍1、rule自定义-通过采集规则的定义,可以搜索到网站采集几乎所有类型的信息
2、Multitasking,多线程-多信息采集任务可以同时执行,每个任务可以使用多个线程
3、所见即所得-任务采集Process 所见即所得。过程中遍历的链接信息、采集信息、错误信息等会及时反映在软件界面中。
4、数据保存-数据端采集side自动保存到关系型数据库,自动适配数据结构。该软件可以根据采集 规则自动创建数据库以及其中的表和字段。数据库引导方式灵活将数据保存在客户现有的数据库结构中
5、断点再采-信息采集任务停止后可以从断点继续采集,以后你再也不用担心你的采集任务被意外中断了
6、网站 login-support网站Cookie,支持网站可视化登录,即使网站登录时需要验证码也可以采集
7、Scheduled tasks-这个功能可以让你的采集任务定期、定量或者一直循环执行
8、采集范围限制-采集的范围可以根据采集的深度和URL的标识进行限制
9、File Download-采集收到的二进制文件(如图片、音乐、软件、文档等)可以下载到本地磁盘或采集results数据库
10、Result 替换-您可以按照规则将采集的结果替换为您定义的内容
11、条件保存-可以根据一定条件决定保存哪些信息,过滤哪些信息
12、过滤重复内容-软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别-使用此功能识别JavaScript动态生成的链接或其他怪异链接
14、数据发布-您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件
15、预留编程接口-定义多个编程接口,用户可以在活动中使用PHP、C#进行编程,展开采集功能安装教程1、先下载资源,解压安装程序后得到它,运行安装程序开始安装
2、接受安装许可协议继续安装
3、点击“浏览”更改安装路径,设置完成后点击下一步继续安装
4、等待安装文件发布完成
更新日志 v9.9更新日志:(2019-7-04)
1. 修复了采集内容或URL错误导致程序退出的问题。
2.下载文件和下载时由于文件地址错误导致程序退出的问题。
3.使用插件时,用于测试发布的数据不是插件处理的数据中的bug。
4.修复了智能提取时SY标签提取不正确的问题。
5.列表页部分标签出现重复bug提示。
6.一个在分词或摘要中没有标签时可能会出错的bug。
7.采集 时提供更详细的显示。更方便用户查看进度。
8. 检测文件并下载并添加不区分大小写的功能。
9.修复逆序发布时部分顺序不正确的问题。
(优采云采集器V9.7.0 更新日志:(2018-7-21)
1:增加“re采集上次请求失败列表页”功能。
2:优化发布任务的方式,在站群样式发布中增加对顺序和反向发布的支持。
3:列表页单独标签,增加“从URL获取”选项。
4:优化图片地址匹配方式,部分无法匹配的图片可以正确匹配。
5:同义词替换,增加对html标签替换的支持。
6:循环采集模式,增加循环次数限制。
7:数据发布,增加自定义数据发布模式。
8:修复删除列表页时无法删除对应列表页标签的问题。
9:修复使用图片水印时未选择保存格式导致水印错误的bug。
10:Json工具,修复处理长Json时卡住的问题。
11:修复采集标签过多导致任务无法运行的bug。
12:修复自定义插件编译错误问题。
13:修复PHP插件for循环采集标签处理报错问题。