ToB企服应用市场:ToB评测及商务社交产业平台

标题: 一文读懂数据仓库、数据湖、湖仓一体 [打印本页]

作者: 张裕    时间: 2024-8-5 14:12
标题: 一文读懂数据仓库、数据湖、湖仓一体
1、数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
早期体系接纳关系型数据库来存放管理数据,但是随着大数据技术的兴起,人们对于多方面数据进行分析的需求愈加剧烈,这就要求建立一个可以或许面向分析、集成生存大量历史数据的新型管理机制,这一机制就是数据仓库。

数据仓库通常存储来自不同源的数据,集成源数据以提供统一的视图。这些资源可以包括事务体系、应用程序日志文件、关系数据库等等。
数据仓库的特征

数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中初次提出了被广为认可的数据仓库界说。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变革的、非易失的数据集合,用于支持管理者的决议过程。这个界说有些复杂并且难以明白,针对界说中的关键词,我们分别来看看数据仓库所具备的特点。
2、数据湖

随着当前大量信息化发展和电子设备产品普及,产生大量的照片、视频、文档等非结构化数据,人们也想通过大数据技术找到这些数据的关系。随之而来的数据湖就产生了。
   数据湖的概念初次于2010年被James Dixon在其博客帖子(Pentaho, Hadoop, and Data Lakes | James Dixon’s Blog)中提及 :

    如果将数据集市视为瓶装水的市肆——颠末干净、包装和结构化以便于饮用——那么数据湖就是处于更自然状态的一大片水体。数据湖的内容从源头流入,填满湖,湖的各种用户可以来查抄、潜入或取样。
  维基百科对数据湖的界说是:数据湖(Data Lake)是一个以原始格式存储数据的存储库或体系,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

也就是说,数据湖中的数据在从源获取时不受数据结构的约束,在需要时应用“读取”模式来促进数据分析。数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案,而不是某个单一独立产品。
数据湖的特征

数据湖具有以下特点:
数据仓库和数据湖的对比

数据仓库数据湖数据来自事务体系、运营数据库和业务线应用程序的关系数据来自 IoT设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据模式写时模式,数据写入前已经界说好schema,更改schema成本较高读时模式,数据在使用的时间再界说schema,机动方便使用头脑先有报表需求,根据报表确定数仓shcema,然后通过ETL过程将数据导入并不需要根据需求来开辟数据业务,数据集中存储,需要的时间再使用。保留了数据的完备性存储容量数据仓库对存储的数据更有选择性,一般比数据湖要小,但与传统数据库相比仍然很大由于包罗全部数据,通常是PB级别的性价比起步成本高,使用当地存储以获得最快查询结果起步成本低,计算存储分离产品形态数据仓库可以是独立的标准化产品数据湖则是一种架构,通常是围绕对象存储为“湖底座”的大数据管理方案组合用户结构化数据,使用非常方便,重要的使用对象是数据分析师、数据工程师、运营职员等等。作为原始数据,非结构化数据的数据库,数据湖的重要使用对象是数据科学家。 从数据含金量来比,数据仓库里的数据价值密度更高一些,数据的抽取和Schema的设计,都有非常强的针对性,便于业务分析师迅速获取洞察结果,用与决议支持。
而数据湖更有一种“兜底”的感觉,甭管当下有效没有/或者暂时没想好怎么用,先生存着、沉淀着,将来想用的时间,只管翻牌子就是了,反正都原汁原味的留存了下来。

3、湖仓一体

数据湖固然适合数据的存储,但又缺少一些关键功能,比如不支持事务、缺乏一致性/隔离性、不包管执行数据质量等,如许的短板决定了,让数据湖来承载读写访问、批处理、流作业是不现实的。而且,数据湖缺乏结构性,一旦没有被管理好,就会变成数据沼泽。

既然都是拿数据为业务服务,数据湖和数仓作为两大“数据集散地”,能不能相互整合一下,让数据活动起来,少点重复建立呢?,于是,Databricks率先提出了湖仓一体(Data Lakehouse)的概念。
湖仓一体是一种结合了数据湖机动性和数据仓库规范性优势的新范式,在基于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。
   Data Lakehouse的概念是由Databricks提出的,其联合创始人兼首席执行官 Ali Ghodsi 说:“从久远来看,全部数据仓库都将被纳入数据湖仓,这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的天下纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”
    现在大多数企业都还没有效到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,特别是随着 AI 的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不大概只跑在纯数仓模型上。以是湖仓一体一定是未来的发展趋势。
  Data Lakehouse的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时lakehouse可以或许有效地提拔数据质量,减小数据冗余。

在lakehouse的构建中,ETL起了非常重要的作用,它可以或许将未经规整的数据湖层数据转换成数仓层结构化的数据。
湖仓一体的特征


湖仓一体的优势


智能湖仓

把数据湖和数据仓库集成起来只是第一步,还要把湖、仓以及全部其他数据处理服务组成统一且连续的整体,这就是Amazon Web Services提出的“智能湖仓”。
智能湖仓并非单一产品,它描述的是一种架构。
这套架构,以数据湖为中央,把数据湖作为中央存储库,再围绕数据湖建立专用“数据服务环”,环上的服务包括了数仓、呆板学习、大数据处理、日志分析,甚至RDS和NOSQL服务等等。

大家“环湖而饲”,既可以直接使用湖内数据,也可以从湖中摄取数据,还可以向湖中回注数据,同时环湖的服务相互之间也可以轻松交换数据。
Amazon Web Services官方给出了智能湖仓的参考架构

数据仓库、数据湖、湖仓一体对比

最后引用《DataFunCon 2021》大会上的一张图片总结数仓、数据湖和湖仓一体之间区别。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4