Bill Inmon说过一句话叫“IT经理们面对最紧张的问题就是到底先建立数据仓库照旧先建立数据集市”,足以说明搞清晰这两者之间的关系是十分紧张而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:
接纳自上而下照旧自下而上的设计方法
企业范围照旧部门范围
先建立数据仓库照旧数据集市
建立领航系统照旧直接实行
数据集市是否相互独立
数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局。
数据集市可以分为两种:
一种是独立数据集市(independent data mart),这类数据集市有自己的源数据库和ETL架构;
另一种是非独立数据集市(dependent data mart),这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用步伐不必要/不须要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简朴为用户提供一个数据仓库的子集。
4.1 概述
AWS界说数据湖是一个集中式存储库,允许您以任意规模存储全部结构化和非结构化数据。
A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
数据湖是一个集中式存储库,允许您以任意规模存储全部结构化和非结构化数据。您可以按原样存储数据(无需先对数据举行结构化处置处罚),并运行不同类型的分析 – 从控制面板和可视化到大数据处置处罚、及时分析和机器学习,以引导做出更好的决议。
4.2.3 微软对数据湖的界说
整个方案基于AWS Lake Formation构建,AWS Lake Formation本质上是一个管理性子的组件,它与其他AWS服务相互配合,来完成整个企业级数据湖构建功能。上图自左向右,表现了数据流入、数据沉淀、数据计算、数据应用四个步调。我们进一步来看其关键点:
数据流入
数据流入是整个数据湖构建的起始,包罗元数据的流入和业务数据流入两个部分。
元数据流入包罗数据源创建、元数据抓取两步,最终会形成数据资源目录,并生成对应的安全设置与访问控制策略。解决方案提供专门的组件,获取外部数据源的相关元信息,该组件能毗连外部数据源、检测数据格式和模式(schema),并在对应的数据资源目录中创建属于数据湖的元数据。
业务数据的流入是通过ETL来完成的。
在详细的产物形式上,元数据抓取、ETL和数据准备AWS将其单独抽象出来,形成了一个产物叫AWS GLUE。AWS GLUE与AWS Lake Formation共享同一个数据资源目录,在AWS GLUE官网文档上明白指出:“Each AWS account has one AWS Glue Data Catalog per AWS region”。
对于异构数据源的支持。AWS提供的数据湖解决方案,支持S3、AWS关系型数据库、AWS NoSQL数据库,AWS利用GLUE、EMR、Athena等组件支持数据的自由流动。
数据沉淀
DLA还有一个紧张本领是构建了一个“四通八达”的数据流动体系,并以数据库的体验对外提供本领,无论数据在云上照旧云下,无论数据在组织内部照旧外部;借助数据湖,各个系统之间的数据不再存在壁垒,可以自由的流进流出;更紧张的是,这种流动是受监管的,数据湖完备的记载了数据的流动情况。
4.8.4 Microsoft Azure数据湖解决方案
图16. 改造后的广告数据湖方案架构
从AWS搬站到阿里云后,我们为该客户设计了“利用Data Lake Analytics + OSS”极致分析本领来应对业务波峰波谷。一方面轻松应对来自品牌客户的临时分析。另一方面利用Data Lake Analytics的强大计算本领,分析按月、季度广告投放,正确计算出一个品牌下面会有多少个活动,每个活动分媒体,分市场,分频道,分DMP的投放结果,进一步加强了加和智能流量平台为品牌营销带来的贩卖转化率。并且在广告投放与分析的总拥有成本上,Data Lake Analytics提供的Serverless的弹性服务为按需收费,不必要购买固定的资源,完全契合业务潮汐带来的资源波动,满足弹性的分析需求,同时极大地降低了运维成本和利用成本。