电子科技大学硕*敏*感*词*论文36 息采集的数据量十分大 少则几十万条 多者上千万条。

优采云 发布时间: 2020-08-09 15:33

  电子科技大学硕*敏*感*词*论文36 息采集的数据量十分大 少则几十万条 多者上千万条。这对数据库的扩展性要求十分高 数据库必须才能便捷地、低成本地进行扩充。同时须要数据库实现复制冗余机制 能便捷地提升备份和降低读操作节点 并手动地进行数据同步。 由于关系数据库在数据量骤降的情况下 分布式扩充遭到限制 本文拟采用NoSQL数据库来实现采集子系统的情报信息仓储。其他的数据采用关系数据库实现。 系统构架系统采用B S结构 数据库储存采用NoSQL文档数据MongoDB。系统构架如图4 2所示。 整个系统包括3层 数据层、应用层、表现层 。最底层是数据层由关系数据库、NoSQL数据层组成 应用层由应用服务器组成 表现层由Web服务器组成。 数据层数据层主要执行对数据的操作 包括各类常规的操作 如添加、删除、查询、修改等。随着系统采集信息的不断降低 情报信息仓储的数据规模越来越大 传统的关系数据库早已不能适应。本文采用文档数据库MongoDB来储存采集到的数据。 应用层应用器是整个系统的关键部份 发挥着企业竞争情报三大子系统的所有功能。采集子系统中情报采集程序、爬虫程序 分析子系统中的各类算法、数据整理和重组操作程序 情报服务子系统的各类服务功能程序 如系统配置、用户管理、系统维护功能等都在应用层实现。

   表现层表现层由Web服务器组成。CIS中 Web服务器作为浏览器和应用服务器之间的中间插口层 将用户在浏览器上的情报数据恳求发送给应用服务器 应用服务器经过相关的模块处理后 再将结果通过Web服务器发送给最终的用户。 第四章 基于大数据的企业竞争情报模型建立 37 系统总体构架系统包括三个子系统。各子系统的功能模块如图4 3所示。 功能基于大数据的竞争情报系统 采集子系统 分析子系统 服务子系统 采集任务管理 采集器监控 情报主题订制 情报资源转出 情报检索 转出 情报挖掘与剖析 情报知识库 用户管理 系统维护 Web服务器 应用服务器 应用服务器 MongoDB数据库 关系数据库 数据层 应用层 表现层层 电子科技大学硕*敏*感*词*论文 38 竞争情报采集子系统的主要功能是对企业的各类类型的情报信息源进行数据采集、预处理 并实现储存。信息源除了包括企业内部的各类系统 如OA系统、OLTP系统、ERP系统、企业Web服务器日志等 还包括企业外部的各类信息来源 如互联网数据、社交网络等。 采集器是情报采集子系统的主要部件。系统通过采集器搜集这种不同来源的数据 并通过规范化预处理 存储在信息情报仓储中 作为进一步进行竞争情报剖析的来源数据。

   采集子系统须要实现以下几个基本功能 信息录入和导出功能其实企业竞争情报系统的数据主要借助手动搜集 但是也须要提供一定程度的人工录入 因此须要有良好的人工录入界面 采集系统除了须要实现手工录入功能 还须要实现对已有数据的批量导出功能。竞争情报管理人员可事先将企业竞争情报进行合理分类 便于管理和信息导出。也可自动将搜集到的信息根据分类导出到储存竞争情报的数据库中。 信息手动采集功能可通过对数据库的调用、网络爬虫等来实现信息情报的手动采集。自动采集是企业竞争情报系统最重要的功能。本文也是主要注重于这一功能的设计进行剖析。 大数据时代 竞争情报的数据来源愈加宽泛 规模愈加庞大 数据类型愈发多样。除了互联网的信息来源 如企业门户网站、新闻媒体网站、政府网站、行业网站等 还包括企业内部的各类服务器日志、企业信息系统的业务数据等。因此 企业竞争情报在数据的快速处理、高效储存等方面都面临着巨大的挑战 传统的文件格式、关系数据库都早已远远不能满足企业竞争情报的需求。 下面对基于大数据的企业竞争情报采集子系统模型进行剖析。 模型传统的情报采集子系统通常通过采集器将采集的数据进行预处理后 存储在关系式数据库中 这种方法在数据量较小的情况下 性能良好 但是在*敏*感*词*数据环境下 其伸缩性、处理的高效性以及*敏*感*词*储存等方面存在着困难。

   本文借鉴Apache Chukwa等在*敏*感*词*数据 日志 采集和处理方面的经验 提出一个基于分布式文件系统和NoSQL数据库技术的情报采集子系统模型 该模型可便捷地构架于Hadoop集群上 充分利用Hadoop擅长于*敏*感*词*数据处理的优势。其流程如下图所示 第四章基于大数据的企业竞争情报模型建立 39 基于大数据的竞争情报采集子系统模型在该模型中 首先按照用户预先定义的竞争情报主题 或者所要完成的情报任务 通过数据采集器对各类型的情报信息源进行扫描 采集符合需求的竞争情报 其次通过预处理器对采集到的原创数据进行清洗、相关度剖析等 最后将预处理过的数据储存在情报信息仓储中。 下面对采集子系统的各功能模块设计作进一步剖析。 采集任务管理模块设计采集任务是由情报用户按照信息采集的需求而订制的主题兴趣。采集任务订制完成后被传递给信息采集器 采集器按照任务订制信息 采用相关策略、对指定信息空间进行搜索 以获取与任务相关的主题信息。 一个采集任务的确定由两个方面属性决定 一个是任务基本信息 一个是Web采集子任务信息。 采集任务的主题由主题词集描述。一个主题词集包括若干个带残差的子主题 子主题之间是“或”的关系。

  一个子主题由多个关键词经逻辑“and”和“not”组成。一个子主题形如 “大数据 企业”。用户可以对采集任务进行管理 如新建、删除采集任务 还可以浏览、修改、暂停、终止、重启自己完善的采集任务 。一个典型的采集任务工作流程如图46所示。 预处理器 HDFS 情报信息源 服务器日志 互联网 采集器 数据集聚 元数据 情报信息仓储 映射 HDFSWrite 情报分类 情报主题 竞争情报剖析子系统 电子科技大学硕*敏*感*词*论文 40 采集器模块设计采集器是该子系统的核心部件 类似于互联网的“爬虫”程序或专题搜索引擎。采集器主要由爬行队列、网络连接器、主题分类器、超链精化器以及情报主题模型等部件组成。 其工作流程如图4 7所示。 新建采集任务 采集任务管理 删除采集任务 浏览采集任务 修改采集任务 暂停采集任务 终止采集任务 重启采集任务 登录 新建采集任务 基本 信息 采集器 信息 采集任务完成 启动采集任务 终止 暂停 重启 删除 采集器运行 主题订制 关键词、 语种、信息类型、… *敏*感*词*站点 采集器参数、… 第四章 基于大数据的企业竞争情报模型建立 41 情报资源转出模块设计情报资源转出模块的功能就是将采集任务采集到的情报专题资源转出为目标计算机上的纯文本数据、XML数据或则关系数据库数据的操作。

  资源转出实现主题资源的迁移 实现系统数据产品输出目标。 情报资源转出的工作流程如图4 8所示。 情报主题订制情报主题订制是指用户订制自己感兴趣的主题范围 作为订制采集任务的基础 即采集任务订制时 主题类别的选择从用户自己订制的分类范围内选择。 Web 网络连接器 爬行队列 情报主题模型 主题分类器 网页库*敏*感*词*站点 追加转出 覆盖转出 开始 选择情报专题 设置转出方法 设置转出目的地和类型 选择转出数组 执行转出 结束 本地转出 远程转出 文本格式、 数据库 XML、… 电子科技大学硕*敏*感*词*论文 42 情报主题分类有多种方式 最常使用的是《中国图书馆分类法》 27 。《中国图书馆分类法》简称《中图法》 是我国图书馆和情报单位普遍使用的一部综合性的分类法。本系统采用《中国图书馆分类法》三级体系作为情报主题的分类。 情报人员在新建采集任务时 需要首先订制情报主题。如图4 9所示。 功能剖析子系统是企业CIS的核心。其中 情报剖析器是该子系统的主要部件。 模型竞争情报剖析子系统主要包括三个部件 情报剖析器、情报知识库以及竞争情报方法库 包括数据挖掘方式库和情报剖析方式库 。其中情报剖析器是关键 它借助各类数据挖掘方式、情报剖析方式对情报信息仓储中的数据进行剖析 获得各类有价值的情报 形成情报知识库。

  情报知识库是情报剖析的结果。 其模型如图4 8所示。 老用户 新用户 定制情报主题 修改情报主题 建立采集任务 第四章 基于大数据的企业竞争情报模型建立 43 情报剖析子系统模型剖析方式主要不仅常规统计学方式外 还有数据挖掘方式、情报剖析方式。本系统的竞争情报剖析方式封装在方式库中 提供给用户在情报剖析过程中依据需求调用。 竞争情报常用的剖析方式方式类型 典型方式 情报剖析 SWOT分析、定标比超、战略联盟、经验曲线、核心竞争力剖析、回归剖析、多元化业务剖析 数据挖掘 常规统计方式、分类、聚类、关联分析、时间序列、社会网路方式、链接剖析等 大数据时代 竞争情报剖析涉及的信息数据可能是海量的 因而适合采用分布式文件系统Hadoop和MapReduce进行数据的储存和处理。 本文的情报剖析子系统设计采用Hadoop作为构架基础 数据剖析或挖掘算法的实现采用MapReduce来完成。因此 设计情报剖析子系统模型如图4 9所示。 采集的原创信息数据 情报剖析器 分析方式 情报知识库 电子科技大学硕*敏*感*词*论文 44 基于大数据的情报剖析子系统模型如图4 3所示 情报剖析子系统包括情报检索、情报挖掘、情报知识库管理等模块。

  例如情报检索模块的设计如图4 10所示。 该模块支持对情报根据题名、作者、关键词、摘要、全文等多种途径进行浏览和检索。检索有两种方法 简单检索和高级检索。另外 该模块还提供对情报资源根据要求人工或手动生成索引。 10情报检索模块功能设计 功能Hadoop HDFS Hcatalog NoSQL MapReduce 数据挖掘方法库 分类、聚类 关联规则 时序剖析 协同过滤 SNA技术情报剖析技术 定性分析法 定量分析法 企业知识库 情报服务子系统 常规方式 词频统计 情报信息仓储 情报检索 情报浏览 普通检索 高级检索 全文索引 第四章 基于大数据的企业竞争情报模型建立 45 企业不同的职能部门和不同层级的人员对情报的需求不同 而情报服务子系统的主要功能是依据企业竞争情报的主题需求或情报任务 对竞争情报剖析子系统的剖析结果进行加工 并以统一的方法为用户提供服务服务 如情报浏览 情报检索 情报报表的生成 情报推荐、个性化用户服务等。 模型现代化的竞争情报服务子系统须要为用户提供形象化的信息展示。可视化的图形图象比单纯的文字更具有说服力 更适于被用户理解 所以许多数据挖掘系统都采用了可视化的方法为用户提供挖掘结果 并可与之进行可视化互动。

   本文将信息可视化技术引入到竞争情报服务子系统 通过可视化技术 将情报剖析结果以生动形象的形式诠释给用户 为用户提供快捷、人性化的情报体验。 子系统模型如图4 11所示。 11情报服务子系统模型 本章小结本章详尽剖析了基于大数据的企业竞争情报模型。模型把企业CIS分为情报采集子系统、情报剖析子系统和情报服务子系统。竞争情报采集子系统的主要功能是对企业的各类类型的情报信息源进行数据采集、预处理 并实现储存 分析子系统是竞争情报系统的核心 其主要任务是对竞争情报采集子系统中采集、存储、预处理过的数据进行统计剖析或数据挖掘 发现有价值的情报。该子系统中的剖析结果将储存在竞争情报知识库中 情报服务子系统的主要功能是依据企业竞争情报的主题需求对竞争情报产品进行加工 并通过统一的门户提供服务。 情报服务加工器 企业竞争情报知识库 可视化映射 可视化结构 视图转换 可视化结果显示 文本报告生成 人机交互界面 报告模板

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线