智能采集平台( WebCateCPS数字信息实时智能处理平台的适用范围及产品结构介绍)
优采云 发布时间: 2021-10-15 17:05智能采集平台(
WebCateCPS数字信息实时智能处理平台的适用范围及产品结构介绍)
信息采集系统解决方案
一、WebCateCPS 简介
WebCateCPS数字信息实时处理智能平台是用于自动获取大量实时数字信息,自动处理数字信息,提供采集、编辑、发布、全文检索、自动分类的智能平台。
WebCateCPS部分技术来源于国家高技术发展计划“863”项目和国家“十一五”科技攻关计划。系统采用先进的网页数字定位技术、内容交互技术、智能分词、概念提取、自动抽象和全文检索等技术,实现了数字信息和数据的全方位、智能化处理。
二、WebCateCPS的适用对象
合作伙伴:OA系统、EIP系统、网站发布系统、内容管理、知识管理、企业(个人)文档管理系统等需要集成全文检索功能的独立软件开发商。
最终用户:适用于具有以下要求的公司或组织:
(1) 需要提高知识利用率和增强竞争力的企业、机构、组织和政府机构,内部数据分散;
(2)有站内搜索功能需求的网站;尤其是专业网站、中小型网站和企业网站;
(3)报纸、广播电台、电视台、出版机构、图书馆、档案馆、档案馆等媒体。
三、产品结构:
WebCateCPS数字信息实时智能处理平台由四个子系统组成:数据采集系统、信息编辑审核子系统、信息智能分类子系统和全文检索系统子系统。
一种。数据采集系统:
WebCateCPS的数据采集子系统是整个智能处理平台的前端。核心功能包括实时互联网信息、异构数据库、多种异构文件格式信息的获取和转换。数字采集子系统支持的文件和数据库格式如下:MS OFFICE、ADOBE PDF、ISO270 9、Oracle、SqlServer、MySQl、Access等。
湾 信息编辑审核子系统:
WebCateCPS信息编辑审核子系统用于智能平台用户进行信息录入、编辑审核、授权分配、人工分类、发布管理、批量删除、定期备份等日常维护管理。该子系统具有组协同工作机制和虚拟工作。该站的功能可以有效支撑20人左右的编辑团队。
C。信息智能分类子系统:
WebCateCPS智能分类子系统用于有格式和无格式文本信息的自动分类和自动索引,可以高效辅助编辑者对海量文本数据进行分类和处理。智能分类子系统兼容多种文件格式,具有完备的词汇管理、分词分类规则管理、分词分类算法管理、自动学习、效果评价等功能。
d. 全文检索子系统:
WebCateCPS全文检索子系统为用户提供海量信息的快速检索和发布功能。该子系统支持多种文档类型,支持自然语言检索,实现秒、毫秒级数百万文档的检索和显示速度。
四、数字信息采集子系统的优点和特点
(1)互联网信息采集模块
功能说明:
实时针对采集各种互联网网站,包括复杂的网站使用JavaScript、用户名/密码验证、严格的Session控制技术,以及大型论坛系统、图片、MP3 网站等。该模块可以完成网页内容提取、信息整理、格式恢复、在线关键词过滤等功能。
优点和特点:
采用“网页元素数字定位技术”,网站采集精准上网,占用带宽小
独特的专业模板制作技术,可采集超难超复杂网站
国内唯一公开支持网站采集的内容交互技术
支持网页操作智能代理技术
支持J2EE计算标准,系统运行稳定,跨平台运行
支持全球大部分语言网站采集
支持原创快照
支持通过代理服务器采集网站
配备相似度排序功能
支持下载多媒体文件(图片、MP3、ZIP),并自动验证下载的完整性,并自动重试下载
(2)数据库记录的优点采集
功能说明:
本模块支持采集的创建和各种数据库记录的索引,支持这些数据库的专有字段类型和操作,包括Oracle、SqlServer、MySql、DB2、Sybase、InfoMix、Access等数据库。该模块支持多个本地和远程数据库的并发操作,增量数据更新,并且可以与数据记录采集同时标记或改变数据记录的分类属性。
优点和特点:
支持主流数据库的所有专业领域类型
支持超过1024个数据库的并发数据采集
(3)桌面文件内容提取采集优点和特点
功能说明:
支持文件系统中多种格式文件的信息加载。用户只需指定要检索的文件目录,然后使用WebCateCPS的文件加载工具批量加载大量格式文件。同时支持分类加载。可以定义一个或多个目录为同一个分类,加载文件时完成分类映射。WebCateCPS支持的文件格式包括以下类型:MS Office系列、Text、Pdf、Html、Xml等,可添加更多格式支持(需定制)
优点和特点:
支持格式化电子文件内容提取
自动识别文件格式,支持批量加载混合电子文档,无需手动分离
(4)信息综合编辑平台的系统优势
功能说明:
内容管理:提供原创信息的编辑排版和新信息的录入。具有强大的编辑功能,在图形界面上实现信息的可视化操作。系统集成了强大的WebCateCPS管理和检索功能,方便各种格式的信息资源统一在线检索
文件管理:实现文件搜索、删除和修改,加载文件的目录管理,统一标注文件名。
分类管理:用户可以在自动分类的帮助下完成“原创分类-自动标签分类-目标分类”的手动分类操作。
用户管理:增加、删除、修改用户,构建用户虚拟工作台,实现系统“*敏*感*词*”功能
权限管理:划分信息读取和修改的权限分配和分类创建和修改的权限,包括角色的定义和管理。
发布管理:设置信息发布模板,可以轻松自定义网站的设计风格,保证页面美观,大大减轻系统维护负担
优点和特点:
系统操作维护简单,无论有无专业知识都易于使用
具有文件编辑和协同工作特性,避免信息“脏读脏写”
具有实时在线信息发布功能,审核后的信息可即时发布
信息访问权限完备,最小信息访问粒度可达到网页原创分类
信息编辑虚拟工作台可实现编辑状态的保存和调用,大大方便了编辑工作
友好的图形编辑界面,类似MS OFFICE的编辑风格
(5)信息智能分类子系统的优势
功能说明
采用马尔可夫(隐马尔可夫)模型+空间向量模型(SVM)实现信息概念提取,提供准确的主题词统计,完成格式和非格式信息的自动分类
优点和特点:
提供分类培训和评估工具,加强用户管理分类和模板的能力
具有自学习功能,可将现有数据源作为分类参考模板
系统内置了大量的分词分类词表,如:汉语分频统计表、专业汉语语法数据库、地名表、汉语姓氏表、停词表等。
拥有完整的自动分类库表管理界面:通过系统提供的分类库表管理界面可以维护各种词汇库
在自动分类结果界面显示文章主题词与分类的匹配度
文章的主题词可以自动排序,并在文章中用红色标记
用户可通过管理界面自主选择分类算法
支持树状结构自动分类
(6)全文检索子系统的优点
功能说明
WebCateCPS全文检索子系统可以完成对HTML、MS OFFICE、PDF、XML、数据库记录等异构、异构信息的高速检索,实现丰富强大的页面功能,如:全文索引管理、多种检索条件组合查询、检索结果排序管理等。
好处
WebCateCPS采用网景检索专用的中文智能分词技术。所有文本信息在处理前都进行了分割;并采用马尔可夫(隐马尔可夫)模型+空间向量模型(SVM)实现信息概念抽取,提供准确的关键词Search。
WebCateCPS中文智能分词技术集成了优秀的歧义识别算法和未注册词识别算法(包括姓名、地名等)。开放语料分词准确率指标在国内处于领先地位。如果你搜索“成都”,你会得到所有“成都”城市的相关结果,不会搜索“一千年前齐国在此建都”;搜索“国花”不会命中“美国花旗银行”
WebCateCPS 采用 Netscape 领先的中文自然语言处理技术,提供基于语义的检索。WebCateCPS全文搜索提供了文本格式转换插件,目前可以支持word、excel、ppt、html、pdf等常用格式的文档。
支持主流数据库,包括Oracle和SQL Server;支持主流操作系统,包括Windows、Linux、Unix;
支持完整的符号体系,包括GB2312/GBK、BIG5、UTF8、GB18030、ISO8599-1,GB18030是继GB2312之后的汉字编码国家标准,GB18030优于Unicode点是它完全兼容GB2312/GBK。
WebCateCPS的网页搜索页面提供了丰富的搜索功能,包括关键字搜索、逻辑表达式搜索、自定义分类搜索、按相关性排序、自定义排序方式;搜索结果提供动态摘要、搜索关键词搜索结果、搜索自动分页、原创快照、相关文档、描述性检索等功能。
支持跨平台应用及各种主流操作系统;
除了数据库的在线备份,还提供系统所有索引信息的在线备份
WebCateCPS提供组件化的功能模块,可根据实际业务流程进行二次开发和个性化定制。提供加工二次开发接口和应用实例,WebCateCPS提供全文检索动态抽象接口;自动抽象接口;关键词 提取接口;格式化文档原文提取界面;相关文档查询接口。
支持搜索关键词命中高亮
支持权限划分检索信息