钜形不锈钢水箱 发表于 2024-8-18 11:40:53

第八章 数据集成和互操纵

https://i-blog.csdnimg.cn/direct/1e3e712a58aa4079afc8ac987e347d17.png

1. 定义



[*] 数据集成和互操纵(DII)描述了数据在不同数据存储、应用步调 和构造这三者内部和之间进行移动和整合的相关过程。
2. 业务驱动因素



[*] 数据集成和互操纵主要目的是为了对数据移动进行有效管理
[*] 管理数据集成的复杂性以及相关本钱是建立数据集成 架构的缘故原由
3. 目标和原则

目标



[*] 及时以数据消耗者(人和体系)所需的格式提供数据。
[*] 将数据物理地或假造地合并到数据中心。
[*] 通过开发共享模子和接口来降低管理解决方案的本钱和复杂 度。
[*] 识别有意义的事件(机会和威胁),主动触发警报并采取相应 举措。
[*] 支持商务智能、数据分析、主数据管理以及运营效率的提拔。
原则



[*] 采用企业视角确保未来的可扩展性筹划,通过迭代和增量交付 实现。
[*] 平衡当地数据需求与企业数据需求,包括支撑与维护。
[*] 确保数据集成和互操纵筹划和运动的可靠性。业务专家应参与 数据转换规则的筹划和修改,包括长期性和假造性。
4. 根本概念


[*] 抽取、转换、加载(ETL)——数据仓库
布局化数据进数仓。数据仓库最终目标是BI

[*] 抽取
抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。
[*] 转换
转换的例子包括:
格式变化
布局变化
语义转换
消除重复
重新排序
[*] 加载
加载过程是在目标体系中物理存储或出现转换结果。

[*] 抽取、加载、转换(ELT)——数据湖
布局化和非布局化数据可以进数据湖。数据湖最终目标是AI
如果目标体系比源体系或中间应用体系具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换
用ELT的方式加载至数据湖,这在大数据环境中是很常见的

[*] 应用场景

[*] 数仓:布局化,ETL,BI,已经发生的事件的总结
[*] 数据湖:布局+非布局,ELT,AI,对未来的预测


[*] 映射(Mapping)

[*] 是转换的同义词。它既是从源布局到目标布局建立查找矩阵的过程。也是该过程的结果

[*] 时延

[*] 是指从源体系生成数据到目标体系可用该数据的时间差
[*] 时延决定了你可选用的ETL的方法
[*] 数据处理方法

[*] 批处理(ETL)
[*] 变更数据捕获 (CDC)
[*] 准实时和事件驱动(Near-Real-Time)
[*] 大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。
[*] 异步
[*] 实时,同步
[*] 低延迟或流处理


5 交互模子

定义:描述了在体系之间建立毗连以传送数据的方式
类别:


[*] 点到点
[*] 中心辐射型
[*] 发布与订阅
6 数据集成和互操纵架构概念



[*] 应用耦合
描述了两个体系交织的水平。
[*] 编排和流程控制(描述在一个体系如如何编排使命流)
编排(Orchestration)是一个术语,用来描述在一个体系中如何构造和执行多个相关流程。全部处理消息或数据报的体系,必须可以或许管理这些流程的执行顺序,以保持同等性和一连性。
[*] 企业应用集成
[*] 企业服务总线(ESB)在中国叫数据中台
[*] 面向服务的架构
7 数据互换尺度



[*] 国家书息交互模子(NIEM):是为在美国政府机构之间的交互文件和交易二开发的数据互换尺度
8 度量指标



[*] 1)数据可用性
[*] 2)数据量和速度
[*] 3)解决方案本钱和复杂度
ETL软件:

[*] Kettle
[*] DataX
[*] Informatica
[*] Talend


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 第八章 数据集成和互操纵