不了解ETL吗?查看这篇文章!
优采云 发布时间: 2020-08-06 13:05ETL基本概念ETL基本概念-背景
随着企业的发展,各种业务线,产品线和部门将建立各种信息系统以促进自己的业务. 随着信息建设的不断深化,业务系统相互独立,相互独立引起的“数据岛”现象尤为普遍. 业务未集成,流程未互连,数据也未共享. 这使企业可以分析和利用数据并开发报告表格. ,分析和采矿带来了巨大的困难.
在这种情况下,为了实现企业全局数据(信息孤岛,数据统计,数据分析,数据挖掘),DSS(决策支持系统),BI(商业智能),商业分析系统的系统运行和管理为了为深入开发和应用奠定基础,并挖掘数据的价值,企业将开始建立数据仓库和数据中心. 集成各个业务系统的数据源,以建立统一的数据采集,处理,存储,分发和共享中心.
在BI项目中,ETL至少要花费整个项目的1/3,而ETL设计的质量直接关系到BI项目的成败.
ETL基本概念定义
ETL是以下过程: 提取,清理和转换(转换)业务系统的数据,然后将其加载(加载)到数据仓库中. 目的是集成企业中分散,无序和不均匀的数据. ,为企业决策提供分析依据.
ETL基本概念-过程
ETL处理分为五个主要模块,即: 数据提取,数据清理,库中的转换,规则检查和数据加载. 每个模块都可以灵活组合以形成ETL处理流程. 简要介绍每个模块的主要功能.
数据提取数据清理和转换数据加载
将数据缓冲区中的数据直接加载到数据库的相应表中. 如果是全额方法,请使用LOAD方法;如果是增量方法,则根据业务规则MERGE输入数据库
ETL VS ELT
根据ETL体系结构的字面意义,它可以理解为一种按照E-T-L顺序处理的体系结构: 完成后首先提取,然后进行转换并加载到目标数据库中. 在ETL体系结构中,数据流是从源数据流到ETL工具的. ETL工具是一个单独的数据处理引擎,通常在单独的硬件服务器上执行所有数据转换工作,然后将数据加载到仓库中的目标数据. 如果要提高整个ETL过程的效率,则只能增强ETL工具服务器的配置并优化系统处理流程(通常,可调整的东西很少).
ELT体系结构将“ L”步骤推进到“ T”之前完成: 首先提取,然后加载到目标数据库中,并完成目标数据库中的转换操作. 在ELT体系结构中,ELT仅负责提供图形界面来设计业务规则. 整个数据处理过程在目标数据库和源数据库之间流动. ELT协调相关的数据库系统以执行相关的应用程序. 数据处理过程既可以在源数据库端也可以在目标数据仓库端执行(主要取决于系统的体系结构设计和数据属性). 当ETL过程需要提高效率时,可以通过调整相关数据库或更改执行该过程的服务器来实现.
您可以仔细查看以上两个架构图,并体验它们之间的差异. 让我们在下面分析它们各自的优点:
ETL体系结构的优点ELT体系结构的优点ETL模式简介
ETL具有四种主要的实现方式: 触发方式,增量字段,完全同步,日志比较
触发模式
<p>触发方法是常用的增量提取机制. 此方法基于提取要求,在要提取的源表上创建插入,修改和删除三个触发器. 只要源表中的数据发生更改,相应的触发器就会将更改后的数据写入增量中. ETL增量提取是从增量日志表中提取数据,而不是直接在源表中. 同时,应及时标记或删除增量日志表中提取的数据. 为简单起见,增量日志表通常不存储增量数据的所有字段信息,而仅存储源表名称,更新的键值和更新操作类型(插入,更新或删除). ETL增量提取过程首先基于. 从源表中提取源表名称和更新的键值,并提取相应的完整记录,然后根据更新操作的类型对目标表进行相应的处理.