1. 定义
- 数据集成和互操纵(DII)描述了数据在不同数据存储、应用步调 和构造这三者内部和之间进行移动和整合的相关过程。
2. 业务驱动因素
- 数据集成和互操纵主要目的是为了对数据移动进行有效管理
- 管理数据集成的复杂性以及相关本钱是建立数据集成 架构的缘故原由
3. 目标和原则
目标
- 及时以数据消耗者(人和体系)所需的格式提供数据。
- 将数据物理地或假造地合并到数据中心。
- 通过开发共享模子和接口来降低管理解决方案的本钱和复杂 度。
- 识别有意义的事件(机会和威胁),主动触发警报并采取相应 举措。
- 支持商务智能、数据分析、主数据管理以及运营效率的提拔。
原则
- 采用企业视角确保未来的可扩展性筹划,通过迭代和增量交付 实现。
- 平衡当地数据需求与企业数据需求,包括支撑与维护。
- 确保数据集成和互操纵筹划和运动的可靠性。业务专家应参与 数据转换规则的筹划和修改,包括长期性和假造性。
4. 根本概念
- 抽取、转换、加载(ETL)——数据仓库
布局化数据进数仓。数据仓库最终目标是BI
- 抽取
抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。
- 转换
转换的例子包括:
格式变化
布局变化
语义转换
消除重复
重新排序
- 加载
加载过程是在目标体系中物理存储或出现转换结果。
- 抽取、加载、转换(ELT)——数据湖
布局化和非布局化数据可以进数据湖。数据湖最终目标是AI
如果目标体系比源体系或中间应用体系具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换
用ELT的方式加载至数据湖,这在大数据环境中是很常见的
- 应用场景
- 数仓:布局化,ETL,BI,已经发生的事件的总结
- 数据湖:布局+非布局,ELT,AI,对未来的预测
- 映射(Mapping)
- 是转换的同义词。它既是从源布局到目标布局建立查找矩阵的过程。也是该过程的结果
- 时延
- 是指从源体系生成数据到目标体系可用该数据的时间差
- 时延决定了你可选用的ETL的方法
- 数据处理方法
- 批处理(ETL)
- 变更数据捕获 (CDC)
- 准实时和事件驱动(Near-Real-Time)
- 大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。
- 异步
- 实时,同步
- 低延迟或流处理
5 交互模子
定义:描述了在体系之间建立毗连以传送数据的方式
类别:
6 数据集成和互操纵架构概念
- 应用耦合
描述了两个体系交织的水平。
- 编排和流程控制(描述在一个体系如如何编排使命流)
编排(Orchestration)是一个术语,用来描述在一个体系中如何构造和执行多个相关流程。全部处理消息或数据报的体系,必须可以或许管理这些流程的执行顺序,以保持同等性和一连性。
- 企业应用集成
- 企业服务总线(ESB)在中国叫数据中台
- 面向服务的架构
7 数据互换尺度
- 国家书息交互模子(NIEM):是为在美国政府机构之间的交互文件和交易二开发的数据互换尺度
8 度量指标
- 1)数据可用性
- 2)数据量和速度
- 3)解决方案本钱和复杂度
ETL软件:
- Kettle
- DataX
- Informatica
- Talend
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |