整洁的一键采集资源( 派可数据PackingData2021-07-15什么是数据治理(DataGovernance))

优采云 发布时间: 2022-04-09 23:22

  整洁的一键采集资源(

派可数据PackingData2021-07-15什么是数据治理(DataGovernance))

  A 文章了解数据仓库:数据治理(目的、方法、流程)

  

  包装资料2021-07-15

  什么是数据治理

  数据治理是一组涉及组织中数据使用的管理行为。由企业数据治理部门发起并实施的关于如何在整个企业内部开发和实施业务应用和数据技术管理的一系列政策和流程。

  数据的质量直接影响数据的价值,直接影响数据分析的结果和我们据此做出的决策的质量。我们常说用数据说话,用数据支撑决策管理,但低质量的数据,甚至是错误的数据,难免会“说谎”!!!数据治理就是提高数据质量,充分发挥数据资产的价值。

  2、数据治理的目的

  降低风险

  建立数据使用的内部规则

  实施合规要求

  改善内部和外部沟通

  为数据增加价值

  轻松的数据管理

  减少开支

  通过风险管理和优化帮助确保公司的持续生存

  3、数据治理方法

  从技术实现的角度来看,数据治理包括“管理”、“获取”、“存储”、“管理”和“使用”五个步骤,即业务和数据资源排序、数据采集清洗、数据库设计和存储、数据管理、数据使用。

  数据资源排序:数据治理的第一步是从业务角度明确组织的数据资源环境和数据资源清单,包括组织架构、业务事项、信息系统、数据库、网页、文件等形式的数据资源, 和 API 接口。数据项资源,这一步的输出是分类数据资源的列表。

  数据采集清理:通过可视化ETL工具(如阿里的DataX、Pentaho Data Integration)将数据从源端抽取、转换、加载到目的地的过程,目的是集中存储零散杂乱的数据。

  基础数据库主题数据库建设:一般来说,数据可以分为基础数据、业务主题数据、分析数据。基础数据一般指智慧城市中的人口、法人、地理信息、信用、电子凭证等核心实体数据或主数据。主体数据一般是指一定的业务主体数据,如食品监管、质量监督检验、市场监管总局对企业综合监管的数据。分析数据是指市场监管总局对企业的综合评价、产业区域分布、高风险企业分布等业务主题数据综合分析的分析结果数据。那么基础库和主题库的构建就是基于对业务的理解和易存储、易管理、易使用的原则,抽象出数据存储结构。说白了就是按照一定的原则设计数据库表结构,然后按照数据资源列表设计数据采集清洗流程,将整洁干净的数据存放在数据库或数据仓库中。

  

  元数据管理:元数据管理是对基础库和主题库中数据项属性的管理。同时,将数据项的业务含义与数据项关联起来,使业务人员也能理解数据库中数据字段的含义。而且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要说明的是,元数据管理一般是对基础数据库和主题数据库中数据项属性(即核心数据资产)的管理,而数据资源列表则是对各种数据源的数据项的管理。

  血线追踪:数据在业务场景中使用时,发现数据错误。数据治理团队需要快速定位数据源并修复数据错误。那么数据治理团队需要知道业务团队的数据来自哪个核心库,核心库的数据来自哪个数据源。我们的做法是在元数据和数据资源列表之间建立关联关系,业务团队使用的数据项是通过元数据的组合来配置的。这样就建立了数据使用场景与数据源之间的血缘关系。数据资源目录:数据资源目录一般用于数据共享场景,例如政府部门之间的数据共享。数据资源目录基于业务场景和行业规范创建,基于元数据和基础库主题自动化。数据应用和使用。

  质量管理:数据价值的成功探索必须依靠高质量的数据。只能使用准确、完整和一致的数据。因此,需要从多个维度分析数据的质量,例如:偏移量、非空值校验、范围校验、规范性校验、重复性校验、相关性校验、异常值校验、波动性校验等。需要注意的是一个优秀的数据质量模型的设计必须依赖于对业务的深刻理解。技术上,也建议使用大数据相关的技术来保证检测性能,减少对业务系统的性能影响,如Hadoop、MapReduce、HBase等。

  商业智能(BI):数据治理的目的是为了使用。对于大型数据仓库,数据使用场景和需求是多变的,因此可以使用BI产品快速获取所需数据,并分析形成报表,像派克数据是专业的BI厂商。

  数据共享和交换:数据共享包括组织内部和组织之间的数据共享。共享方式也分为库表、文件和API接口三种共享方式。库表共享相对简单粗暴。也可以实现方向的数据交换。我们推荐的是API接口共享方式。这样,中央数仓就可以保留数据所有权,并通过API接口转让数据使用权。API 接口共享可以使用 API Gateway 来实现。常用功能有接口自动生成、应用审核、限流、并发限制、多用户隔离、通话统计、通话审计、黑白名单、通话监控、质量监控等。

  4、8 数据质量指标

  数据准确性

  数据采集值或观测值与真实值的接近程度,也称为误差值,误差越大,准确度越低。

  数据的准确性

  指对同一物体的观测数据进行重复测量得到的不同数据之间的接近程度。

  数据的真实性

  数据的及时性

  数据是否能保证在需要的时候,比如月初的财务对账,能不能在月初完成

  数据的即时性

  指data采集时间节点和数据传输的时间节点。一个数据在数据源采集之后立即存储,立即处理呈现,即实时数据,一段时间后传输到信息系统,数据即时性稍差。

  数据的完整性

  是预期 采集 和实际 采集 与数据之间的比率。

  数据的全面性

  完整性衡量应该是 采集 和实际是 采集 之间的差异。全面性是指数据采集点的遗漏。

  数据相关性

  指数据集之间的关系。例如,员工工资数据和员工绩效考核数据通过员工资源链接在一起。

  5、数据治理流程

  基本流程:发现数据质量问题>定义数据质量规则>质量控制>质量评估>质量优化

  ———————————————

  版权声明:本文为CSDN博主“kissme”的原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原文出处链接和本声明。

  原文链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线