方正翔宇cms网站内容管理系统(北大方正技术研究院自主知识产权的核心技术产品方正智思知识管理软件)
优采云 发布时间: 2022-02-25 06:02方正翔宇cms网站内容管理系统(北大方正技术研究院自主知识产权的核心技术产品方正智思知识管理软件)
一、行业应用
项目背景
作为中国最大的新闻之一网站,新华网凭借信息的真实性、丰富性和速度,一直处于行业权威地位。为适应快速发展的信息市场需求,更好地服务新闻领域,新华网不断改进编辑流程,提高制作效率,增强网站的页面效果,更快、更有效地凸显新华网的优势。更好的。多年来,新华网坚持以内容为核心理念,强调数据内容管理的过程。为了快速、自动、安全地管理和使用这些数据,建设数据中心成为新华网的新要求。
方正智思知识管理软件是北大方正工学院自主知识产权的核心技术产品,是方正工学院结合中国信息技术精髓开发推出的中文智能信息挖掘与知识管理软件开发包。多年来积累的加工。服务体系。根据新华网的具体特点,方正智思知识管理软件可以快速实现智能信息挖掘和知识管理功能的应用,帮助新华网完成海量信息的智能分析和处理,推动新华网信息化进程。
需求分析
该项目的总体目标是:新华网使用方正智思知识管理软件完成数据中心建设。具体功能有:数据采集、数据挖掘、数据处理与推送、数据输出、数据管理等。通过数据中心整合新华网主网数据和本地子网数据,形成完整和非重复的内容。并在此基础上,利用数据挖掘、自然语言处理等先进技术,充分发挥新华网内容极其丰富的优势,构建以内容管理为核心的知识管理体系,形成以知识为基础的数据自动化处理和深度。加工,从而提高工作效率,产生新的功能价值。
新华网内容管理系统数据中心的功能分为几个部分:
1、数据采集:采集原创数据进入数据中心,智能分析敏感稿件,自动去重,自动分类,自动提取关键词和摘要进入数据中心。和其他数据处理工作;
2、数据挖掘:利用数据中心存储的信息进行分析挖掘,为编辑进行智能检索、专题制作、新闻跟踪、热点分析等提供辅助支持;
3、数据处理与推送:编辑编辑稿件时,数据中心为编辑提供服务,包括:提取关键词、摘要、推荐图片、多媒体和稿件专题;
4、数据输出:将数据中心稿件和分析挖掘结果按照WEB、邮件、短信等系统发布的格式要求输出到指定的文件存储位置;
5、数据管理:包括系统管理、权限控制等功能。
二、应用解决方案
系统按功能需求分为五个部分:数据采集、数据挖掘、数据服务、数据输出、数据管理。
应用系统采用多层客户端/服务器和浏览器/服务器结构,采用IBM CM 8作为数据存储系统,采用“方正智思”知识管理产品实现应用需求。
三、架构
方正智思是一款中文智能信息挖掘和知识管理软件开发包。它以方正多年积累的中文信息处理技术、中文自然语言理解技术和图形图像处理技术为基础,融合人工智能、信息检索和文本挖掘的最新研究成果,经过严格的产品化而形成发展。软件开发工具包。提供海量文档、图片、视频、音频等数字内容的智能检索、智能分析和智能自动处理功能。在其上,可以方便地进行应用系统的开发,
四、产品特点
1、全文搜索
全文检索是海量文档数据检索的重要基础技术手段。方正智思全文搜索引擎将企业的全文搜索技术与WEB搜索技术相结合,大大提高了搜索引擎的性能指标。
以基于中文分词的混合词为索引单元;
以索引项为单位的多信息域的索引方法;
使用哈希表作为基本的索引映射方式;
逐层合并为索引组织模式;
分页惰性排序的快速响应。
丰富的搜索功能和搜索方式
它集成了多种相关技术,提供了丰富的检索方法。除了传统的表达条件检索外,还提供基于中文词典的智能查询支持。为检索结果集提供相关性排序、动态总结、自动聚类、树状结构构建等功能。搜索引擎在速度、准确性和功能丰富性方面处于领先地位。
2、自动分类
方正智思的自动分类引擎采用文档向量空间模型和分类算法的概率统计模型。其核心算法的基本原型是目前学术界认为最好的SVM文本分类模型。该算法基于该模型,结合智能学习的方法,采用优化的算法实现技术,适用于文本等类型数据的快速分类。
3、自动聚类
方正自动聚类引擎采用文档向量空间模型和K-means聚类算法。针对文档和媒体数据的海量高维特征和孤立点特征,引擎算法融合了我们最新的研究成果,在处理海量文档和媒体数据时具有卓越的品质。
4、主题检索/跟踪
创始人智思的话题检测/跟踪引擎采用国际最新研究成果,引入新的时间窗算法,结合我们在中文信息处理方面的优势。非常好的实用性能。在实际应用系统中,引擎核心可以分析新闻事件,辅助专题报道,快速识别新事件,跟踪热点事件。