第八章 数据集成和互操纵

打印 上一主题 下一主题

主题 1022|帖子 1022|积分 3066



1. 定义



  • 数据集成和互操纵(DII)描述了数据在不同数据存储、应用步调 和构造这三者内部和之间进行移动和整合的相关过程。
2. 业务驱动因素



  • 数据集成和互操纵主要目的是为了对数据移动进行有效管理
  • 管理数据集成的复杂性以及相关本钱是建立数据集成 架构的缘故原由
3. 目标和原则

目标



  • 及时以数据消耗者(人和体系)所需的格式提供数据。
  • 将数据物理地或假造地合并到数据中心。
  • 通过开发共享模子和接口来降低管理解决方案的本钱和复杂 度。
  • 识别有意义的事件(机会和威胁),主动触发警报并采取相应 举措。
  • 支持商务智能、数据分析、主数据管理以及运营效率的提拔。
原则



  • 采用企业视角确保未来的可扩展性筹划,通过迭代和增量交付 实现。
  • 平衡当地数据需求与企业数据需求,包括支撑与维护。
  • 确保数据集成和互操纵筹划和运动的可靠性。业务专家应参与 数据转换规则的筹划和修改,包括长期性和假造性。
4. 根本概念


  • 抽取、转换、加载(ETL)——数据仓库
    布局化数据进数仓。数据仓库最终目标是BI

    • 抽取
      抽取过程包括选择所需的数据并从其源数据中提取。然后,被抽取 的数据会在磁盘或内存中的物理数据存储库中进行储存。
    • 转换
      转换的例子包括:
      格式变化
      布局变化
      语义转换
      消除重复
      重新排序
    • 加载
      加载过程是在目标体系中物理存储或出现转换结果。

  • 抽取、加载、转换(ELT)——数据湖
    布局化和非布局化数据可以进数据湖。数据湖最终目标是AI
    如果目标体系比源体系或中间应用体系具有更强的转换能力,那么 数据处理的顺序可以切换为ELT——抽取、加载、转换
    用ELT的方式加载至数据湖,这在大数据环境中是很常见的

    • 应用场景

      • 数仓:布局化,ETL,BI,已经发生的事件的总结
      • 数据湖:布局+非布局,ELT,AI,对未来的预测


  • 映射(Mapping)

    • 是转换的同义词。它既是从源布局到目标布局建立查找矩阵的过程。也是该过程的结果

  • 时延

    • 是指从源体系生成数据到目标体系可用该数据的时间差
    • 时延决定了你可选用的ETL的方法
    • 数据处理方法

      • 批处理(ETL)
      • 变更数据捕获 (CDC)
      • 准实时和事件驱动(Near-Real-Time)
      • 大多数未采用批量方式的数据集成解决方案都是使用准实时或事件 驱动的方式。
      • 异步
      • 实时,同步
      • 低延迟或流处理


5 交互模子

定义:描述了在体系之间建立毗连以传送数据的方式
类别:


  • 点到点
  • 中心辐射型
  • 发布与订阅
6 数据集成和互操纵架构概念



  • 应用耦合
    描述了两个体系交织的水平。
  • 编排和流程控制(描述在一个体系如如何编排使命流)
    编排(Orchestration)是一个术语,用来描述在一个体系中如何构造和执行多个相关流程。全部处理消息或数据报的体系,必须可以或许管理这些流程的执行顺序,以保持同等性和一连性。
  • 企业应用集成
  • 企业服务总线(ESB)在中国叫数据中台
  • 面向服务的架构
7 数据互换尺度



  • 国家书息交互模子(NIEM):是为在美国政府机构之间的交互文件和交易二开发的数据互换尺度
8 度量指标



  • 1)数据可用性
  • 2)数据量和速度
  • 3)解决方案本钱和复杂度
    ETL软件:

    • Kettle
    • DataX
    • Informatica
    • Talend


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

钜形不锈钢水箱

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表