解决方案:数据交换实践:创建业务系统间高速公路
优采云 发布时间: 2022-12-25 19:22解决方案:数据交换实践:创建业务系统间高速公路
企业大量的IT投资建立了众多的信息系统,但随着信息系统的增多,孤立工作的信息系统会造成大量的冗余数据和业务人员的重复劳动。 企业迫切需要建立一个底层数据集成平台,连接整个企业的异构系统、应用程序和数据源,实现ERP、CRM、SCM、数据库、数据仓库等内部重要系统的无缝集成。企业。 共享和交换数据。
如何建立可靠、高效、动态的数据交换平台,已成为企业间资源共享、价值创新、优势互补的重要课题。 那么,在国家大力扶持芯创产业、推进国产化进程的大潮下,到底采用了哪些技术来实现数据互通呢?
本文主要介绍数据交换平台使用的技术和解决方案,让大家快速了解和掌握数据交换平台; 以信创为切入点,围绕信创的数据交换过程,系统地探讨了数据交换技术的难点和问题。 详细分析步骤,为数据交换项目的建设奠定基础。
目录
01数据交换开发
02数据交换架构
03数据交换技术
04 总结
01
数据交换开发
1.1 数据交换技术的发展趋势
信息技术应用创新发展是当前的国家战略,也是当前形势下国民经济发展的新动力。 信创的发展就是确保核心技术自主可控,解决近年来安全的本质问题。 目前,国家已在各省、自治区、直辖市建设大型、超大型数据中心。 数据中心的用电量虽然占全社会用电量的近1%,却拉动了GDP的36.2%。 数据中心建设成为经济发展的新支点。
数据中心存储的数据量大,数据敏感性突出。 以往数据中心建设中数据安全管控意识不强。 数据交换系统采用国外厂商的产品套件和技术架构,存在较大的数据安全隐患。 IT底层标准、架构、技术、接口、产品生态都是国外IT商业公司制定的。 底层技术受限风险多,技术层面无法独立定义和控制。 国外的软件不支持国内的数据库和系统。 当面临生态适配、新协议、熔断、限流、预警等功能的定制化需求时,定制难度大、成本高。 数据交换系统作为各业务数据交换的中枢系统,牵一发而动全身。 数据交换系统引发的安全问题将直接影响到企业整个核心业务的信息安全。
基于以上问题,国产数据交换系统逐步发展起来,实现了新旧交换系统的更替和平滑过渡,拥有自主可控的知识产权,能够适配国产操作系统和数据库。 不仅可以实现高效的数据交换,还可以实现数据共享,促进业务创新。
1.2 传统数据交换技术架构存在的问题
数据交换技术分为提取、转换和加载三个阶段。 从不同的数据源提取数据EXTRACTION,根据一定的数据处理规则对数据进行处理并将格式转化为TRASFORMATION,最终处理后输出到目标数据表也可能是文件等。
传统的数据交换技术比较死板,只能从一个数据源提取数据到目标数据源,中间只能做简单的过滤、清洗和转换。 另外,在很多情况下,要迁移整个数据库,需要根据数据迁移的目标个数来编写每个表的迁移过程,而目标数据源的表无法自动创建,导致大量的冗余工作,常常让开发者望而却步。 面对传统数据交换中的实时数据同步场景,很多数据交换系统无法提供实时数据提取的组件或功能,无法应对新形势下数据发展的趋势。 随着互联网、大数据等诸多新技术的发展,传统的数据交换面临诸多挑战,例如:
1、传统方式一般以单表数据交换为单位进行作业开发。 随着企业中数据库和表的增多,这种方式开发效率低,容易出错,全库数据交换工作量大
2. 传统方式开发交易所模型只能一个一个手工完成,任务多,容易出错。需要一个可以在同一个业务下批量开发的模型
3、在进行实时数据同步时,需要完成很多额外的操作,过程复杂,对人员的技术要求高。
4、传统的交换方式在交换PB级数据时效率低下,需要很长时间才能完成。
5、传统的数据交换工具不具备面向业务的开发能力,遇到相同的数据交换需求需要从头开发。
6.在安全性方面,传统的方式是手动编写加密脱敏脚本来实现
02
数据交换架构
2.1 基于元数据的新一代数据交换架构
数据交换平台不仅交换数据,还提供基于数据资源目录的数据交换、数据共享和管理的一体化解决方案。 通过编目,企业现有数据资源一目了然。 平台集成的元数据引擎可以自动获取资源的元数据信息,形成资源目录。 通过资源目录进行数据交换,避免了传统的数据交换模式。 为实现传统模式难以完成的多个异构数据源的组合,同时进行整个数据库的数据同步和数据迁移,还可以支持实时数据交换,将数据交换到数据中心。 通过资源目录,可以创建各个业务主题域,将数据共享发布到主题域,实现数据共享服务,并对共享服务进行监控和管理。
元数据是关于数据的结构和意义的描述性信息、操作数据的数据和数据库系统。 一个重要的目标是提供一个全面的数据资源指南。 元数据不仅定义了数据交换中的数据模式、来源、提取和转换规则,而且整个数据交换系统的运行都应该基于元数据。 元数据将数据交换系统中的松散组件连接起来,形成一个有机的整体。
通过自动化的元数据采集,完成部门核心职能的业务梳理和相应的信息资源梳理,编制部门信息资源目录,找出信息资源是什么,信息资源在哪里,提高信息资源的共享性,建立信息资源共享平台。信息资源共享机制和管理制度。 结合企业内部信息系统中的数据现状和企业业务属性、技术属性的要求,形成企业数据标准的业务属性和技术属性,制定有效、合理的指标数据规范要求。
2.2 元数据自动采集
数据交换依赖于元数据,数据交换的本质是基于元数据的交换,自动采集半结构化和结构化数据。
数据交换平台内部的元数据引擎可以根据源数据库的元数据信息,自动将源数据库的元数据转换为目标数据源的元数据,生成DDL语句。 自动生成目标数据源使用的表结构,为整个数据库的自动迁移奠定技术基础。
2.3 数据交换功能
数据交换平台的功能主要包括以下几个部分:
资源目录管理:基于资源目录管理规范,对需要交换的数据元数据进行分级分域管理,并以目录的形式为数据交换开发者和数据管理者提供元数据展示。 数据服务目录管理的主要功能包括:元数据管理、分类管理、目录编目、目录管理和目录服务。
服务接口管理:数据交换平台提供服务接口管理功能,通过服务操作注释、服务操作参数、服务操作返回值等分层方式进行可视化的服务管理。 提供了相应的用户界面。 服务接口管理的主要功能包括:接口注册、接口管理、接口构建、服务监控、调用关系管理和服务接口统计。
数据交换管理:支持服务接口开发、etl数据提取、文件传输数据交换的开发、运行和管理。 主要功能包括:交换桥、预交换、数据处理、文件传输和数据统计。
系统支持功能:支持数据按分类、主题、应用等多层次分类管理、识别、定位和共享。 开发的数据服务消费者可以在平台上浏览查看。 消费者如需使用数据服务,可在平台发起申请,经批准后根据平台提供的服务信息使用数据。 主要功能包括:主题管理、信息订阅、数据审批和申请记录。
系统管理与监控:支持按角色、菜单划分系统功能权限,可对服务接口、etl数据提取、文件传输交换等操作进行监控,进行统计监控。 主要功能包括组织管理、用户管理、角色管理、安全管理和平台监控。
2.4 资源目录
资源目录系统和交换系统密不可分。 资源目录的建设过程实际上是对信息资源进行编目分类的综合过程,也是依托技术构建信息资源管理系统的过程。 在建立目录系统和交换系统的同时,形成内部信息资源的管理架构。 资源目录是数据交换的基础,可以提供数据交换所需的元数据信息。 同时,它是一套信息资源检索、定位和共享的应用服务系统。
根据相关标准的定义,资源目录可分为部门资源目录、基础资源目录和主题资源目录。 从实用角度来说,整理部门资源目录是数据交换平台的切入点。 但由于下级部门数量众多,各自对数据中心的期望和要求不一致,数据中心的建设短期内无法支撑下级部门的业务,因此上报数据不活跃。 此外,每个下级部门都建立了多套业务系统。 作为数据交换平台的实施者,也很难对委办局提出明确的数据需求。 数据交换管理组需要牵头梳理资源目录,即要求各下属部门或单位根据职责梳理出本应有的数据目录和数据项,然后接入每个部门的数据通过资源目录组成一个部门。 数据库,再构建基础数据库和主题数据库,形成主题数据,支撑各种上层应用,包括大屏分析、主题分析,甚至政务服务事项、一站式办公等。
使用资源目录管理系统,可以在线进入资源目录,通过信息化手段减少整理资源目录的工作,通过技术手段提高整理效率。 整个过程就像开了一个数据超市,需要联系各个供应渠道,管理各个供应渠道的供应关系,最后形成商品目录上架。
2.5 服务和接口
近年来,随着数据服务意识的加强,越来越多新上线的系统都提供了相关数据服务的接口。 此时服务接口的数据交换管理采用SOA松耦合的思想进行数据交换。 通过灵活的服务接口和Adapter方便了SOA应用和遗留应用的集成。 这种松散耦合、有效且灵活的架构提供了更好的可扩展性。
关键点:
Call/Push:将服务注册到数据交换平台,可以主动调用接口拉取数据。 如果下级部门有业务集成需求,可以直接使用交换平台提供的接口接入业务。
数据写入方式:根据不同的数据交换逻辑,可直接写入资源目录管理系统,在线录入资源目录,借助信息化手段,减少整理资源目录的工作,提高通过技术手段分拣的效率。 然后数据中心与各个系统共享,数据也可以直接传输到业务系统。
松耦合的服务配置:在服务配置过程中,ip和端口、服务URI、服务逻辑布局、响应消息处理等环节都是单独配置的,所以对于调用者来说,服务是透明的、无侵入的。
2.6 交易所管理
这里交换管理分为两部分,一是ETL交换,二是文件传输。
ETL的交换用于*敏*感*词*的非实时低频数据交换。 不仅是数据文件,从ETL中提取的结构化数据,从数据库中提取的增量日志,都是先生成存储在文件缓存中,再通过批量数据管道进行传输。
关键点:
三种数据采集:各种数据文件、ETL抽取和处理的结构化数据、从数据库中获取的增量日志。
数据传输链路:实现申请单位前端交换信息数据库与交换中心之间的信息处理和稳定、可靠、不间断的信息传输。
ETL逻辑一次性配置:ETL文件在传输前后都有处理逻辑。 这些逻辑可以在交换中心的单点配置,并自动同步到相关的前端节点。
三种触发方式:定时任务调度、数据检测、任务监控。 通过数据检测,可以准实时地检测并发送数据库的新日志。
文件传输交换用于实现文件形式的数据传输。 实现集团总部与成员单位之间的文件数据传输。 对于大文件,自动分割文件智能传输,支持断点续传、加密压缩传输、并发文件传输和传输流控。
关键点:
文件传输:文件传输采用*敏*感*词*和一对多的方式。 用户配置发送节点和发送目录,接收节点和接收目录,配置调度策略。 FTA发送节点会定时自动检测发送目录。
断点续传:保证在不稳定的网络条件下可靠高效的数据传输。
加密压缩传输:系统可以对发送的数据进行加密,目的节点收到加密数据后会自动对接收数据进行解密。 提供压缩机制,提高用户传输大容量文件时的效率。
并发传输:支持并发传输,每个传输节点可以同时传输多个文件。
03
数据交换技术
3.1 数据流编排
数据交换平台基于元数据配置形成数据管道,每个流程节点将作为一个单独的线程运行,负责提取、转换或加载数据。 每个管道都被实例化为一个队列,形成一个高速数据通道。 类似于工厂的流水线处理,每个组件只会负责自己特定的业务。 处理好自己的业务后,会将数据放入下一步的通道中,下一步会从上一步的通道中获取数据。 做业务处理。 形成流水线数据处理方法。
朴元数据交换平台基于流水线处理方式,可实现多个异构数据源同时混合提取数据。 这在复杂的数据处理场景中非常有用。 例如:流程数据迁移时,数据存储在业务系统的数据库中,但保证流程存在于流程引擎对应的数据库中,流程数据一般以xml或json的形式存储. 那么这个时候朴元的数据交换平台就可以将业务系统中的数据与流程引擎的流程结合起来提取数据,经过中间的排序、过滤、转换等步骤,可以根据判决的结果。 数据被放入不同的异构数据源中。 这种灵活的数据排列方式是传统单一的ETL流程无法完成的。
3.2 实时数据处理
更改数据捕获称为 CDC。 这种方式主要用于增量数据同步,实时性要求高的场景。 这种架构下,数据写入主存后,会从主存同步到副存,对应用层最友好,只需要和主存打交道。 从主存储到二级存储的数据同步可以使用异步队列复制技术来完成。 但是该方案对主存的能力要求很高,主存必须能够支持CDC技术。 目前各个数据库实现CDC的方式和方法都不一样,所以CDC开发需要根据数据库类型进行定制化。
CDC数据同步具有低影响、低延迟、高性能的特点。 这里以mysql为例,使用Canal实现CDC数据同步。 canal使用mysql slave协议伪装成mysql的subserver,将dump协议发送给mysql master。 mysql master收到dump请求后,会将记录的日志信息发送给slave(即canal),canal解析日志信息,获取需要同步的数据,数据交换平台*敏*感*词*Canal服务通过Canal组件获取变化的数据并上交。 增量数据输出组件根据CDC捕获的操作类型(类型:insert、update、delete)对目标数据库进行相同的操作。 操作完成数据同步。
3.3 全库批量数据迁移
在数据交换平台中,元数据引擎用于在迁移过程中自动判断表是否存在。 如果不存在,则根据原表的信息自动在目标数据库中创建对应的表(这里是可以生成异构数据库的表),如果该表存在,则直接进行数据同步。 形成了独特的全库批量迁移方案。
这里在同样的环境下,使用mysql数据库和流行的Datax来比较传输效率。 从对比中可以看出,同步的性能并没有太大的差别。 但同步过程却大不相同。
1、Datax不支持不同表结构的多表批量迁移。 如果要支持多json,目前还不能自动建表。
2. DI支持批量迁移多个不同表结构的表,执行时可以判断表是否有自动创建的表结构
3、根据测试结果,并发数为1时传输效率最高
通用元数据交换平台结合资源目录,可以通过对批量数据源的简单可视化操作,对数据源进行批量数据交换处理。 批量数据交换具有以下特点:
1、实现基于作业模板的业务能力定义
2. 可以批量进行整个数据库的数据交换
3、数据交换中各种数据转换的自动控制
4、批量数据自动交换和传输
5、通过批量数据交换,加强大数据量的交换能力。 配置、部署、运维简单,可有效提升开发者的开发效率和开发质量。
3.4 标识位数据同步
数据交换平台具有同步标识数据的能力。 提取数据时,会根据查询游标自动增加并生成标识列。 传输到目标表时,如果提交成功,则将成功标识记录在本地存储中,如果提交失败,则记录失败前提交成功的ID。 重新执行数据交换时,判断是否有标识位,如果存在则根据标识位定位查询游标,并从该位置提取数据。 这样就实现了数据库两张表之间的断点续传,同时提供了同步标识位增量数据的能力。
3.5 指定期间的数据交换
数据交换平台作为一个批量数据处理系统,每天要进行大量的数据处理工作,这些工作之间可能存在复杂的时序关系。 因此,必须有一个具有一定自动化程度的调度层,才能实现有序、高效的运行。 实行。
作业运行前需要在统一调度系统中注册。 注册成功后,调度系统自身的调度管理根据配置的任务计划确定作业的执行顺序进行资源分配。
时间表收录以下内容:
触发方式:在调度管理中,根据日历和频率定时触发作业。
作业顺序:触发后,作业会按照之前设定的数据进行排序调整。
任务规划:任务规划会根据配置的任务执行周期进行任务调度。
资源分配:在进行调度时,会根据注册的作业服务器的状态进行资源分配和传输任务的执行。
3.6 负载均衡
负载均衡是一种多节点负载解决方案,用于解决单个作业服务器在并发执行多个作业时数据ETL过程压力过大的问题。 通过负载均衡组合多个作业服务器节点,通过负载算法将作业分发到这些节点上执行ETL过程。 这些作业服务器能够以最佳状态对外提供服务,使系统吞吐量最大,性能更高,用户处理数据的时间也更短。 此外,负载均衡增强了系统的可靠性,最大限度地降低了单个节点过载甚至宕机的可能性。
数据交换平台会监控数据交换引擎所在机器的网络、cpu、内存、硬盘信息,判断数据交换执行引擎所在机器分配的资源压力是否过高或隔离故障数据交换执行根据系统设置引擎中的阈值,将请求的执行引擎动态分配给资源压力较小的数据交换执行引擎运行,如果所有数据交换引擎的资源压力都比较高,则数据交换管理平台将任务设置为等待状态,在数据交换执行引擎切换引擎资源压力低于阈值后重新执行。 确保生产系统安全稳定运行。
3.7 与大数据结合
传统的ETL主要以SQL为主要技术手段,将数据经过抽取、清洗、转换后加载到数据仓库中。 然而,在移动互联网蓬勃发展的今天,产生了大量碎片化、不规则的数据。 数据导入和SQL ETL提取的过程消耗了大量的IO性能和计算资源,已经是很多场景下数据处理的瓶颈。
Spark通过在数据处理过程中以较低的代价进行洗牌(Shuffle),将MapReduce提升到一个更高的水平。 使用内存中的数据存储和近乎实时的处理能力,Spark 可以比其他大数据处理技术快很多倍。
在新的数据交换中,我们开发了FlumeOnYarn框架,它是基于XML描述的可编程函数ETL转换方法。 这种方式充分利用了Spark处理大数据的能力。 通过XML文件描述源和目标以及中间转换过程,可以控制Spark对数据进行ETL过程处理。 完全可以处理Hadoop、Hive、Hbase等任务。 体现了大数据处理的优势。
04
总结
4.1 数据使用
过去,数据交换平台只能给它有什么数据,而现在新一代的数据交换平台可以得到你想要的数据。 能够满足这些要求的背后是数据交换技术的发展和进步。 通过建立共享目录服务等共享数据库,数据、文档等通过人工录入或导入导出的方式存储在共享库中,数据交换平台实现业务的快速发布和所需信息的便捷检索查询。
发布的服务可以提供给用户申请或订阅。 数据信息订阅分为申请资源和订阅资源两种方式:
申请资源:为消费者提供资源申请方法,在学科分类资源树中申请数据实体资源。 与平台相比,它是一种“拉”的方式。 消费者申请资源后,会向消费者开放Web服务信息,形成下载方式。 消费者主动获取数据资源。
订阅资源:提供消费者通过资源订阅方式申请学科分类资源树中的数据实体资源。 与平台相比,是一种“推”的方式。 订阅资源后,消费者向平台提供数据库、文件目录地址和连接方式。 平台将数据资源推送给消费者。
The user's application or subscription needs to be approved to obtain data resources, and the data manager can monitor the data used by the user on the data exchange platform. Data sharing and routing are realized through the data exchange platform. This connection method realizes the seamless exchange and shared access of data, ensures the effective coordination of various business systems, and at the same time ensures the mutual independence and low coupling of each application system, which improves the overall operation efficiency and security of the system sex.
When users use data, it is like entering a data supermarket. The various themes shared on the data sharing platform are like data shelves. The shelves are full of various data, and users can choose at will. After finding the data you want, you only need to issue an application or subscription, and you can get the required data after approval.
4.2 System Management and Monitoring
In system management and monitoring, the data management party can allocate resource usage rights and monitor the usage of data exchange and data sharing by consumers.
The data exchange platform supports alarm monitoring. When the platform data exchange service is abnormally executed, relevant alarm services can be triggered. Users can customize service monitoring indicators and alarm ranges, and support email, SMS and other alarm methods. As we said earlier, the sharing service provided is like opening a data supermarket, so the monitoring of the data exchange platform is like a surveillance camera installed in the supermarket, which can monitor every move of data exchange and ensure the security of data assets.
The Puyuan data exchange platform DI combines Xinchuang's requirements for localization and independent controllability, can adapt to the environment of localized operating systems and databases, shares data through resource directories, and creates data between various business systems. The expressway turns the original data islands into data warehouses and data marts to effectively manage and apply data.
About the author: Song Hua, a senior consultant of Puyuan, has more than ten years of experience in the IT industry, and has been focusing on enterprise data exchange and data management. He has presided over and participated in the product development of Primeton DI and Primeton ESB, committed to self-service data sharing and data exchange research, and continued to explore and develop in the field of data governance.
解决方案:百度外链工具有何作用?如何使用外链工具进行外链分析
外链工具有什么作用
1、处理本站有问题的外链,对以后的外链建设起到积极的作用;
2、您可以根据我们提供的外链数据,进行多维度的重组聚合,进而了解自身在外链建设中的情况。
如何使用外链工具进行外链分析
此数据为未经计算及百度搜索过滤的原创数据,仅供参考。 登录您在百度站长平台注册的账号,进入站长工具->优化维护->链接分析,此时您可以:
第一,查看自己网站一段时间内的外链趋势;
其次,您可以进一步查看主域名和链接到您网站的外部链接数量。
三、可以查看下载自己网站的具体外链数据,方便分析自己网站的外链情况。 不同的汇总和重组将使您得出各种重要结论。
举两个例子:
1、某个话题页面排名不高。 当其他方面找不到原因时,怀疑是外链因素造成的。 这时候可以对专题页的外链进行汇总分析,兼顾质量和数量,着重分析外链产生的原因和过程。 当然,数据分析的前提是根据外链判断排除有问题的外链后的数据,欢迎举报。
2、锚点聚类可以分析某个页面在传播过程中用户和其他网站对内容的定位,可以在后续的外链构建和传播过程中进行适当的调整。
总之,详细的外链数据下载下来后,可以根据自己的需要进行各种聚合分析。
阅读本文的人还可能阅读:
百度链接提交工具--四种提交方式
为什么要使用死链接工具?如何使用死链接工具