构建数据仓库有两种方式:自上而下、自下而上
Bill Inmon推许自上而下的方式,一个企业建立唯一的数据中央,数据是经过整合、清洗、去掉脏数据、尺度的、能够提供同一的视图。要从整个企业的情况入手,建立数据仓库,要做很全面的计划。偏数据驱动
Ralph Kimball推许自下而上的方式,认为数据仓库应该按照现实的应用需求,架子啊需要的数据,不需要的数据不要加载到数据仓库中。这种方式建立周期短,用户能很快看到效果。偏业务驱动
数据质量管理
Operate Data Store操作数据存储。数据源中的数据经过ETL后装入ODS层。
ODS层数据的来源一样平常有:业务数据库、日志、抓取等。
数据仓库层DW
根据ODS层中的数据按照主题建立各种数据模型。
DW通常有:DWD、DWB、DWS
DWD: data warehouse detail细节数据层,是业务层和数据仓库的隔离层。
DWB: data warehouse base根本数据层,存储的是客观数据,一样平常用作于中间层。
DWS: data warehouse service服务数据层,整合汇总分析某个主题域的服务数据。一样平常是大宽表。
数据服务层/应用层ADS
真实场景中,是lambda架构和kappa架构的混合。大部分及时指标通过kappa架构计算,少量关键指标用lambda架构批量计算
随着数据多样性的发展,数据库这种提前规定schema的模式显得力不从心。这时出现了数据湖技能,把原始数据全部缓存到某个大数据存储上,后续分析时根据需求去解析原始数据。简单来说,数据仓库模式是schema on write,数据湖模式是schema on read
OLAP简介