站群自动采集器(25、主从服务器分布式采集更新日志优采云采集器v7.6)
优采云 发布时间: 2022-03-31 12:03站群自动采集器(25、主从服务器分布式采集更新日志优采云采集器v7.6)
25、MongoDB数据库保存数据
26、主从服务器分布式采集
变更日志
优采云采集器v7.6 绿色正式版更新列表:
1、gif图片不再加水印,修复加水印文字时不判断加水印条件的问题;
2、新增迅雷快传、云文件、千脑、金山网盘文件上传功能;
3、增加了用户在删除记录时可以选择是否删除下载文件的选项;
4、增加了日志,通过上传文件的功能;
5、新增批量导入网址功能;
6、增加发布时使用代理的功能;
7、修复使用单边发送通用模式时无法保存为本地excel的bug;
8、文件保存格式支持[tag:ID],记录的id可以作为目录的一部分;
9、修复$编码错误的问题;
10、增加几个错误检查,防止采集器退出;
11、将汉字替换为拼音词库,汉字数量增加到18000个;
12、更新了自动补全链接中迅雷地址补错的问题。
软件安装说明:
优采云采集平台定义了统一的接口规范,提供了大量的API。用户可以轻松开发自己的应用程序并在平台上运行,可以减少开发时间和成本。目前平台官方内置了优采云采集器。
本软件版本为优采云采集器v7.7正式版,下载软件后直接解压即可。注意:软件运行时必须有.net2.0框架,vista和win7系统用户可能会提示请求管理员权限,请放过。如果没有请下载!
安装说明★★
优采云数据采集平台要求:你的电脑必须安装.net framework2.0或2.0以上的framework。如果您的 采集器 无法打开,请下载并安装框架
使用 windows .net 框架 2.0
32位下载地址:
64位下载地址:
升级说明
直接从3.2sp5、2008、2009或2010升级到最新版本的优采云Data采集平台,请运行程序目录下的UpdateToV7.exe并按照升级提示。升级程序不会对原有数据进行任何修改,但为防止用户误操作,请在升级前备份旧版本的数据和配置。备份方法是对原采集器进行完整的复制。
采集相关条款
1.采集规则
规则简称采集在V7之前的版本中分为站点规则和任务规则,通常指的是任务规则。V7及以后版本采用无限级组管理任务规则,不再有站点规则的概念。所谓采集规则就是采集一个网站或者一个网站栏目网页需要在软件中设置的设置。此设置可以从软件中导出并保存为文件,然后导入到软件中。V7版本的任务规则文件后缀为.ljobx,之前的站点规则文件后缀为:.lsite;任务规则文件后缀为:.ljob。
2.采集任务
采集任务也称为任务。它是 采集 规则和发布规则的总和。它也是采集规则和发布规则的载体。采集规则和发布规则的设置是在任务编辑框中完成的。从 采集器 导出的 采集 规则文件(带有 .ljobx 后缀)也可以称为作业规则。导入导出任务规则用于指导.ljobx文件的导入导出。
3.发布模块
发布模块又称为模块和发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块,就是当需要将已经采集的数据发布到目的地(例如:网站/background或指定数据库)时,软件中的设置。可以将此设置保存为文件并导入到 采集器 中使用。数据库发布模块文件后缀名为:.dpm;WEB在线发布模块文件后缀名为:.wpm。(采集规则和发布模块可以从采集器导出,也可以导入到采集器中使用。采集规则负责将网页上的数据转换采集下,发布模块负责将采集的数据发布到网站。可以看出 采集 规则的编写和修改与 采集 的 网站 相关,发布模块的编写和修改与 网站 相关的要发布的数据。例如,从不同的网站列采集数据到同一个网站(频道)的某个部分,需要多个采集规则和一个发布模块。将一个网站列采集的数据发布到不同的网站系统,一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)而发布模块的编写和修改与待发布数据的网站相关。例如,从不同的网站列采集数据到同一个网站(频道)的某个部分,需要多个采集规则和一个发布模块。将一个网站列采集的数据发布到不同的网站系统,一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)而发布模块的编写和修改与待发布数据的网站相关。例如,从不同的网站列采集数据到同一个网站(频道)的某个部分,需要多个采集规则和一个发布模块。将一个网站列采集的数据发布到不同的网站系统,一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)需要规则和一个发布模块。将一个网站列采集的数据发布到不同的网站系统,一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)需要规则和一个发布模块。将一个网站列采集的数据发布到不同的网站系统,一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站和爬取内容的设置。)