ToB企服应用市场:ToB评测及商务社交产业平台

标题: 数据网格到底是什么,它真的能替换数据仓库和数据湖吗? [打印本页]

作者: 用多少眼泪才能让你相信    时间: 2024-10-31 11:22
标题: 数据网格到底是什么,它真的能替换数据仓库和数据湖吗?

  数据网格概念由扎马克·德赫加尼提出,她在2019年的开创性文章《如何从单一数据湖转向分布式数据网格》中指出:
  “传统的集中式数据管理模型无法顺应快速变化的业务需求,而数据网格通过分布式的方式管理数据,允许业务部分拥有并管理其数据,同时通过标准化的API和自助服务平台实现跨部分的数据共享。”
  2022年,德赫加尼的著作《数据网格:大规模交付数据驱动的价值》(Data Mesh: Delivering Data-Driven Value at Scale)正式出版,详细论述了数据网格的设计原则、实行方法和技能架构,推动了这一概念的进一步普及。
  

  数据网格在2022年的Gartner数据管理技能成熟度曲线中初次出现,被定位在"创新触发"(Innovation Trigger)阶段,固然是初次出现,但Gartner就预测数据网格会在到达"生产性高原"(Plateau of Productivity)之前就变得过期(obsolete),如下图所示:
  

  Gartner的这个观点受到争议,一些专家认为Gartner的观点过于偏向供应商和技能,而忽视了实际业务需求。还有一些专家说,数据网格将继承增长,但会被分解为更小的组件,这些组件将被新兴数据工具的其他方面所吸收。
  为了更好的明确数据网格,我拿了德赫加尼的《数据网格:大规模交付数据驱动的价值》原版书来读,发现本身小看了数据网格,数据网格讲得可不是一个简单概念,而是围绕数据网格创建的一套架构体系。因此,写读书笔记一篇,分享给大家。
  本读书笔记共分为五个部分,与原版书籍目次保持一致,如下所示:
  1、数据网格是什么?
  2、为什么选择数据网格?
  3、如何设计数据网格架构?
  4、如何设计数据产品架构?
  5、如何开始实行数据网格?
  在读完这本英文书籍后,我有一个体会,就是提出一个新的概念不难,但要把这个概念解释清楚,并且能用一本书来进行系统解读,阐明是真的把这个事变想清楚了,这叫做在实践中做学问吧。下面,让我们来看看数据网格的提出者是怎么做的。
  一、数据网格是什么?
  在当今数字化时代,数据已成为企业的核心资产。然而,随着数据规模和复杂性的不断增长,传统的中心化数据管理方法正面对着前所未有的挑战。数据网格(Data Mesh)应运而生,作为一种革命性的数据管理范式,它为我们提供了一个全新的视角来对待和处理大规模、复杂环境下的分析数据。
  数据网格的本质是一种去中心化的社会技能方法。它不仅仅是一种技能架构,更是一种思维模式的变化,涉及组织布局、文化和技能的多个层面。数据网格的核心在于将数据责任分散到最了解数据的业务领域,同时通过标准化和自动化来保证整体的一致性和互操纵性。
  下图显示了数据网格与早期分析数据管理方法相比的多维技能和组织厘革。
  

  1、在组织上,它从由运行数据平台技能的专家集中拥有数据的模式,变化为一种分散的数据拥有模式,将数据的拥有权和责任推回到数据产生或利用的业务领域。
  2、在架构上,它从在单一的仓库和湖泊中网络数据变化为通过标准化协议访问的数据产品的分布式网络连接数据。
  3、在技能上,它从将数据视为运行管道代码的副产品的技能办理方案变化为将数据和维护它的代码视为一个充满活力的自主单元的办理方案。
  4、在操纵上,它将数据治理从一个自上而下的集中式操纵模型与人工干预变化为一个在网络节点中嵌入计算政策的联合模型。
  5、在原则上,它将我们的价值体系从将数据视为可网络的资产变化为将数据视为服务和满意数据用户(组织内部和外部)的产品。
  6、在基础办法上,它从两套碎片化和点对点集成的基础办法服务变化—一套用于数据和分析,另一套用于应用步伐和操纵系统,变化为一套精良集成的基础办法,服务于操纵和数据系统。
  数据网格创建在四个相互关联的原则之上,这些原则共同构成了其理论和实践的基础:
  1、领域所有权:这一原则将数据责任分配给最靠近数据的业务领域。它借鉴了领域驱动设计(DDD)的头脑,将数据按业务领域进行逻辑分解,由各个领域团队负责管理和共享他们最了解的数据。这种方法不仅提高了数据的真实性和及时性,还能更好地顺应业务的变化。
  2、数据即产品:将产品思维应用于数据管理是数据网格的一大创新。每个数据集被视为一个"产品",必要具备可发现、可明确、可信赖等特质。这种思维变化促使团队更加关注数据的质量和用户体验,从而提高数据的整体价值。
  3、自服务数据平台:为了支持去中心化的数据管理,数据网格必要一个强盛的自服务平台。这个平台必要简化数据产品的创建和利用过程,降低技能门槛,使得更多的通用技能人员能够参与到数据工作中来。
  4、联邦计算治理:在分散数据责任的同时,数据网格也认识到了全局一致性的重要性。联邦计算治理模型通过自动化和计算来实现政策的执行,均衡了域自主性和全局互操纵性。
  四个原则是共同必要和充分的。它们相辅相成,每个原则都应对大概由其他原则引发的新挑战。下图 显示了这些原则之间的相互作用。
  

  二、为什么选择数据网格?
  今天的标题源于昨天的办理方案,当前的分析数据架构的经历了三代演进,德赫加尼特殊指出,以往以技能分区为驱动的方法存在标题:
  1、数据仓库架构 
  这是最早的集中式数据管理方法,将数据从业务系统抽取、转换后加载到集中的仓库中。固然办理了数据孤岛标题,但随着时间推移,往往变得复杂难维护。
  2、数据湖架构 
  为了应对大数据和呆板学习需求而生,保存了原始数据形态。但也面对"数据沼泽"的风险,数据质量和可用性成为挑战。
  3、多模式云架构 
  联合了前两代架构的优点,并利用云的优势。但仍未从根本上办理组织复杂性带来的挑战。
  这三代架构固然在技能层面不断进步,但它们仍有几个共同的局限性:
  1、单体性:架构、技能和组织布局都趋向于集中化,难以应对业务的复杂性和变化。
  2、中心化的数据所有权:固然办理了数据孤岛标题,但间隔数据源越来越远,影响了数据质量和响应速率。
  3、技能导向:架构设计过于关注技能功能,而忽视了业务领域的自然边界。
  数据网格从过去的办理方案中学习,并致力于办理它们的缺点。它减少了作为和谐瓶颈的集中化点。找到了一种新的方式来分解数据架构,而不会因同步而减缓组织的速率。它消除了数据泉源与数据利用之间的差距,并消除了意外的复杂性——即在两个数据平面之间发生的管道。
  数据网格的目标是使组织能够大规模获取数据价值,利用数据不仅改善和优化业务,还重塑业务,体如今三个方面:
  

  1、优雅应对变化
  
  

  
  

  
  2、保持增长中的灵敏性
  
  

  
  

  
  

  3、提高数据投资回报率
  
  三、如何设计数据网格架构?
  作者从四个核心原则出发,逐步构建了数据网格的整体架构框架,展现了从理念到实践的推导过程。
  1、领域导向的分析数据共享接口
  领域所有权原则延伸了领域的边界,要求每个领域控制其数据——操纵数据和分析数据,每个领域都提供分析数据共享接口。这一点突破了传统数据架构中领域与分析的割裂,为数据的源头治理奠定了基础。
  

  2、数据产品作为一种架构量子
  数据网格将每个数据产品设计为一个"架构量子",它是可以独立部署和管理的最小架构单元。它具有高功能内聚性,即执行特定的分析转换并安全地共享结果作为面向领域的分析数据。它具备执行其功能所需的所有布局组件:转换代码、数据、元数据、管理数据的政策以及与基础办法的依赖关系。这种设计大大提高了数据产品的自治性和可复用性。
  

  3、多平面数据平台
  数据网格接纳了一种多平面的平台架构设计,主要包括三个平面:
  
  

  网格体验层依赖于数据产品层的接口,由于它聚合了这些接口,而数据产品体验层则依赖于下层基础办法服务层的接口,由于它抽象了这些接口。
  这种分层设计既保证了用户体验的优化,又兼顾了底层资源的高效利用。平台各个平面之间通过API进行交互,保持了精良的解耦。
  4、嵌入式计算政策
  数据网格接纳了一种分布式的治理模式,将各种计谋(如访问控制、加密、隐私保护等)以代码的形式嵌入到每个数据产品中。平台提供统一的控制接口,但具体的计谋执行则在数据产品的运行时上下文中进行。这种设计既保证了治理的一致性,又避免了中心化治理大概带来的性能瓶颈。
  数据网格架构引入了几个逻辑组件,以将数据产品计谋作为代码进行管理:
  
  

  5、以用户旅程驱动的平台设计
  多平面数据平台的最终目的是为跨职能领域团队提供服务,以便他们能够交付或利用数据产品。数据网格生态系统中有几个主要的高层次角色,包括数据产品开发者、数据产品斲丧者、数据产品负责人、数据治理成员、数据平台产品负责人、数据平台开发者等等。
  下图示例了一个数据产品开发者的创建和运营数据产品之旅:
  在一个与源对齐的数据产品的环境下,该产品从操纵系统中获取数据,数据产品开发人员与源应用步伐开发人员紧密合作。他们共同设计和实行应用步伐如何将其操纵数据作为数据产品的输入进行共享。请注意,这些人属于同一个领域团队。
  

  下图示例了平台接口是如何设计来支持数据产品开发的:
  

  下图示例了数据基础办法平台是如何支持数据产品交付的:
  

  四、如何设计数据产品架构?
  数据产品是数据网格的核心,必要一个高效、灵活且可扩展的数据产品架构。
  1、数据产品的本质
  数据产品是数据网格中的根本构建块,它不仅仅是数据的聚集,更是一个自治的实体,能够独立管理、处理和提供数据服务。设计数据产品架构的首要使命是明确其本质特征:
  
  2、设计思路:可供性(Affordances)导向
  设计数据产品架构的核心思路是基于可供性。可供性指的是数据产品能够为用户(人或系统)提供的交互能力。主要的可供性包括:
  

  
  这种设计方法确保了数据产品能够顺应变化、易于扩展,并持续创造价值。
  3、核心功能设计
  (1)服务数据
  服务数据是数据产品的主要功能,其设计应遵照以下原则:
  
  

  案例:思量一个客户行为数据产品。它可以同时提供JSON格式的API访问和CSV格式的文件下载。数据包含客户ID、行为范例、发生时间和记载时间。这样的设计允许数据科学家通过API进行实时分析,同时市场团队可以下载CSV文件进行离线分析。
  (2)斲丧数据
  数据产品必要从各种源头获取数据。设计思量包括:
  
  

  案例:一个销售数据产品大概必要从CRM系统、ERP系统和市场营销平台获取数据。通过设计统一的输入端口,它可以轻松地从这些差别源头获取并整合数据。
  (3)转换数据
  数据转换是数据产品增值的关键环节。设计思量包括:
  
  案例:一个客户细分数据产品大概必要联合交易历史、客户属性和行为数据进行复杂的分析。它可以利用SQL进行初步的数据聚合,然后利用Python实现呆板学习模型来进行客户细分。
  4、可发现性和可组合性设计
  (1)可发现性
  确保用户能够轻松找到并明确数据产品是关键。设计思量包括:
  
  案例:设计一个数据目次系统,之中每个数据产品都有一个详细的登录页面。该页面包含数据形貌、样本数据、利用指南和质量指标。用户可以通过搜刮框快速找到所需的数据产品。
  (2)可组合性
  数据产品should能够轻松地与其他数据产品组合,以创造新的洞察。设计思量包括:
  
  案例:思量将客户数据产品和交易数据产品组合,创建一个客户生命周期价值数据产品。通过标准化的接口和共同的客户ID,这两个数据产品可以无缝集成,产生更高价值的洞察。
  5、管理、治理和观察设计
  (1)生命周期管理
  利用数据产品清单(manifest)来形貌和管理数据产品的整个生命周期。清单should包含:
  
  (2)数据治理
  将治理规则直接编入数据产品中,确保数据的正确利用。设计思量包括:
  
  

  (3)可观察性
  设计全面的监控和诊断能力:
  
  案例:设计一个数据产品的dashboard,实时显示数据质量指标、利用环境和处理耽误。当检测到异常时,自动触发告警并提供详细的诊断信息。
  6、设计原则总结
  
  设计数据产品架构是实现有效数据管理和利用的关键。通过接纳可供性导向的设计方法,并遵照上述原则,组织可以创建灵活、可扩展且价值驱动的数据生态系统。这种架构不仅能够提高数据的可用性和可信度,还能更好地顺应快速变化的业务需求。
  五、如何开始实行数据网格?
  启动数据网格是一个复杂而持续的过程,必要技能、业务和组织文化的全面厘革。通过将数据网格纳入整体数据战略,接纳业务驱动的执行框架,推动组织厘革和文化塑造,并订定公道的迁移计谋,企业可以逐步创建起一个灵活、可扩展的数据管理架构,为数据驱动的创新和决策提供强有力的支持。
  1、数据网格作为数据战略的核心
  启动数据网格的第一步是将其纳入企业的整体数据战略。数据网格不应被视为孤立的技能项目,而应是实现数据驱动业务价值的关键构成部分。
  在启动数据网格之前,必要评估组织的准备水平。可以从以下几个方面进行评估:
  

  
  如果组织在这些方面得分中等或较高,那么就具备了接纳数据网格的精良基础。
  2、业务驱动的执行框架
  数据网格的实行应该接纳业务驱动的方法,将技能实现与具体的业务价值紧密联合。
  (1)辨认高价值用例
  选择能够快速展示价值的业务用例作为出发点。包括以下一些原则:
  
  这些用例应该能够展示数据网格的优势,如跨领域数据集成和实时分析能力。
  (2)端到端迭代执行
  接纳端到端的迭代方法,每次迭代都涵盖从业务需求分析到数据产品开发,再到平台能力构建的完备流程。这种方法能够持续交付价值,并得到快速反馈。
  (3)演进式执行模型
  数据网格的实行应该遵照一个多阶段的演进模型:
  
  下图展示了数据产品(Data as a Product)在差别发展阶段的特征演变。让我逐一剖析每个阶段的特点:
  

  (1)探索/引导阶段 
  
  在这个阶段,只创建少量数据产品,主要实现根本功能。开发者专注于创建标准和最佳实践。选择的数据产品通常风险较低,主要是源数据对齐的产品,以确保安全性和可靠性。
  (2)扩展/扩大规模阶段 
  
  这个阶段数据产品数量快速增长,功能更加丰富以支持快速开发。开发重点转向支持多样性,包括更高风险的数据产品。数据产品范例扩展到包括聚合数据在内的所有范例。
  (3)提取/维持阶段
  
  在这个阶段,数据产品数量趋于稳定,所有功能都为提高系统弹性而设计。开发重点转向优化现有数据产品。此时也开始整合遗留系统,数据产品主要以满意斲丧者需求为导向。
  在每个阶段,都应该利用顺应度函数来评估进展。这些函数可以包括:
  
  3、组织厘革与文化塑造
  启动数据网格不仅是技能厘革,更是组织和文化的深刻转型。
  (1)培养数据文化
  推广数据网格所需的核心价值观:
  

  
  (2)调整组织布局
  接纳团队拓扑的方法重塑组织布局:
  
  

  领域数据产品团队负责数据产品的端到端交付,被视为流对齐团队。他们与其他团队共享他们的数据产品作为服务。数据网格平台团队向数据产品团队提供他们的平台能力作为服务。治理团队部分充当赋能团队,支持平台和数据产品团队。治理团队有时与平台团队协作。
  (3)引入新角色
  创建和定义新的角色以支持数据网格:
  
  同时,现有角色也必要调整,如首席数据官的角色大概会从直接受理数据变化为更多的赋能和战略引导角色。
  (4)技能发展
  投资于全员的数据素养提升:
  
  创建新的职业发展路径,使更多的通用技能人员能够参与到数据产品的开发和利用中。
  4、迁移计谋
  对于大多数组织来说,启动数据网格意味着从现有的数据架构(如数据仓库或数据湖)迁移。这个过程必要审慎规划:
  (1)避免与中心化架构共存
  数据网格的目标是消除中心化瓶颈,因此不应该与现有的中心化数据架构长期共存。
  (2)利用现有技能
  在专门为数据网格设计的技能出现之前,可以利用现有的数据技能,但要以支持自治和分布式数据产品的方式进行配置。
  (3)直接连接源系统
  在迁移过程中,应该绕过现有的数据湖或仓库,直接从源系统构建数据产品。这样可以更好地实现领域所有权和缩短源与斲丧者之间的间隔。
  (4)原子化演进步骤
  迁移应该以原子化的演进步骤进行,每一步都应该减少技能债务和架构熵。例如,创建新的数据产品,迁移现有斲丧者,并镌汰旧的表格、文件和管道。
  结语

  至此,这本书的五大部分全部讲完了,本身读来受益匪浅。原书每部分的内容非常丰富,受限于篇幅,我大多只能点到为止,如果大家对相关内容感兴趣,可以去找原书来读。
  至于数据网格能否替换数据仓库或者数据湖的标题,我认为德赫加尼低估了数据相对于功能的维度复杂性,也低估了网络的影响水平,更低估了和谐的难度,还有企业文化的巨大影响,同时也低估了融合分析通过分布式来实现的巨大技能挑战。
  德赫加尼提出的让离业务近来的人去做数据这种理念,非常有原理,但领域要有自主权可以通过租户的形式在大一统的数据湖上进行入驻就能实现,这种方式还能兼顾集中和分散,而且国内采取这种形式的不在少数,只是没有像数据网格那样做的这么彻底,同时我认为,数据网格对基础办法和自动化治理提出了过高的要求,当前的供应商接不住。
  但有一点我黑白常认可德赫加尼的,就是OLTP团队和OLAP团队要实现彻底的融合,如今能做到这一点的企业很少。但随着AIGC的到临,OLTP和OLAP的融合成为了一种趋势,任何做AI的应用团队,都至少必要配个专业的语料数据工程师。
  我在本身负责的管信和数据团队中,做了一些融合实行,认为效益很大,以前,没有什么驱动力能够捏合这两只团队,如今AI似乎可以。
  

  

  

  

  详解大厂实时数仓建设 2203
  数仓的建模和BI的建模有啥区别?2388
  一图看懂数据仓库、数据平台、数据中台、数据湖的内涵和区别! 3060
  常见数据同步工具之实时同步 2640
  那一年,为了进阿里背过的SQL题 3431
  从ODS到ADS,详解数仓分层!
  2023版最新最强盛数据口试宝典
  
查看全部文章

  
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,贫苦右下角点个在看或者把本号置顶


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4