网站自动采集发布系统(优采云采集器(www.ucaiyun.com)专业的网络数据/信息挖掘软件)
优采云 发布时间: 2022-01-06 05:18网站自动采集发布系统(优采云采集器(www.ucaiyun.com)专业的网络数据/信息挖掘软件)
优采云采集器()是一款专业强大的网络数据/信息挖掘软件。通过灵活的配置,您可以轻松地从网页、文件等资源中抓取文本和图片。
优采云采集器支持从任何类型的网站采集获取您需要的信息,例如各种新闻网站、论坛、电子商务网站、求职网站等,同时强大的网站登录采集、多页分页采集、网站跨图层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。
基本技能
1、规则定制
通过采集规则的定义,几乎可以搜索到所有网站采集的信息。
2、多任务、多线程
多个信息采集任务可以同时执行,每个任务可以使用多个线程。
3、所见即所得
任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时反映在软件界面中。
4、数据保存
采集的同时数据自动保存到关系型数据库,数据结构可以自动适配。软件可以根据采集的规则自动创建数据库,以及其中的表和字段,也可以灵活的由数据库引导将数据保存到客户现有的数据库结构中。
5、断点恢复挖矿
信息采集任务在停止采集后可以从断点处继续,从此不用担心采集任务被意外中断。
6、网站登录
支持网站Cookie,支持网站可视化登录,即使网站登录时需要验证码也可以采集。
7、预定任务
通过此功能,您的采集 任务可以定期、定量或连续执行。
8、采集范围限制
采集的范围可以根据采集的深度和URL的标识进行限制。
9、文件下载
您可以将采集收到的二进制文件(如图片、音乐、软件、文档等)下载到本地磁盘或采集结果数据库中。
10、 结果替换
您可以根据规则将采集的结果替换为您定义的内容。
11、 条件保存
您可以根据特定条件决定保存哪些信息以及过滤哪些信息。
12、过滤重复内容
软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、 特殊链接识别
使用此函数来识别使用 JavaScript 或其他奇怪链接动态生成的链接。
14、数据发布
您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件。
15、预留编程接口
定义多种编程接口,用户可以在活动中使用PHP、C#语言进行编程,扩展采集的功能。
特殊功能
1、支持所有网站编码
完美支持采集所有编码格式的网页,程序还能自动识别网页编码。
2、多种发布方式
支持当前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块可以实现采集器和网站节目的完美结合.
3、全自动
无人值守的工作。程序配置好后,程序会根据您的设置自动运行,无需人工干预。
4、本地编辑
本地可视化编辑采集的数据。
5、采集测试
这是任何其他类似的 采集 软件都无法比拟的。程序支持直接查看采集的结果和测试发布。
6、易于管理
使用站点+任务模式管理采集节点,任务支持批量操作,更轻松的数据管理。
软件特点
1、强大的通用性
无论是新闻、论坛、视频、黄页、图片、下载网站,只要是浏览器可以看到的结构化内容,通过指定匹配规则,就可以采集获取内容你需要 。
2、稳定高效
历经五年磨砺,软件不断更新完善,采集速度快,性能稳定,占用资源少。
3、可扩展性强,应用范围广
自定义web发布,自定义主流数据库的存储和发布,自定义本地php和.net外部编程接口处理数据,让数据为你所用。
更新日志
1、 调整列表页面的重新排列方式,现在只在同一级别的列表页面之间进行重新排列。
2、增加任务完成后运行统计预警功能(邮件预警)【终极版功能】
3、 增加了对一些返回码不是200的请求的支持,仍然执行采集的配置。
4、 新增支持将下载地址保存为html文件。
5、二级代理服务,增加导入时的代理类型配置,同时修复用户名密码显示错误。
6、发布配置页面,默认只显示当前选中的配置,加快任务加载时间。
7、修复命令行控制,closeapp参数不能自动关闭程序的问题。
8、修复未选择图片水印时图片无法裁剪的问题。
9、优化启动界面加载方式,解决初始界面卡顿问题。
10、修复“|”无法检测到图片下载的问题 收录在配置中的多线连接器中。
11、修复Excel导出数据时列顺序与字段顺序不一致的问题。
12、修复Excel导出数据时部分字段收录数字的问题。
13、修复批量编辑任务时无法复制Json采集表达式的问题。
软件特别说明
本软件需要电脑安装.NET2.0。