ToB企服应用市场:ToB评测及商务社交产业平台

标题: 一文读懂数据仓库构建流程(超具体) [打印本页]

作者: 莱莱    时间: 9 小时前
标题: 一文读懂数据仓库构建流程(超具体)
        相信大家都知道数仓分层架构(ods、dwd、dim、dws等)。但是面对一个从0开始的数仓,我们不免会有一个疑问,应该如何去构建各层,以及数仓规划中要有哪些事实表和维度表,这个理论依据从何而来呢,相信大家看完本篇文章,可以在搭建数仓的时候有一个理论依据。
1、数仓构建整体流程

数仓构建核心图:
我们可以发现实在数据开发占比整个数仓构建流程只是很小的部分,只要我们将前期的数据调研,各种数仓模子筹划好,剩下的就是按照模子的代码开发了,所以数仓构建的前期的数据筹划就成为了核心了,下面可以看下每一步我们都应该如何去做。
这里面有两个名词:业务总线矩阵、统计指标,大家偏重相识下。
2、数据调研

数据调研重点要做两项工作,分别是业务调研和需求分析。这两项工作做的是否充分,直接影响着数据仓库的质量。​​​​​​
(1)业务调研
业务调研的主要目标是认识业务流程、认识业务数据
认识业务流程要求做到,明确每个业务的具体流程,必要将该业务所包罗的每个业务过程一一列举出来。
认识业务数据要求做到,将数据(包括埋点日志和业务数据表)与业务过程对应起来,明确每个业务过程会对哪些表的数据产生影响,以及产生什么影响。产生的影响,必要具体到,是新增一条数据,照旧修改一条数据,并且必要明确新增的内容大概是修改的逻辑。
下面业务电商中的交易为例举行演示,交易业务涉及到的业务过程有买家下单、买家支付、卖家发货,买家收货,具体流程如下图。

(2)需求分析
典型的需求指标如,近来一天各省份手机品类订单总额。
分析需求时,必要明确需求所需的业务过程维度,例如该需求所需的业务过程就是买家下单,所需的维度有日期,省份,商品品类。
(3)总结
做完业务分析和需求分析之后,要保证每个需求都能找到与之对应的业务过程及维度。若现有数据无法满足需求,则必要和业务方举行沟通,例如某个页面必要新增某个行为的埋点。
3、明确数据域

数据仓库模子筹划除横向的分层外,通常也必要根据业务情况举行纵向分别数据域。
分别数据域的意义是便于数据的管理和应用
通常可以根据业务过程大概部分举行分别,必要留意的是一个业务过程只能属于一个数据域,以电商数仓为例看下如何分别对应的数据域。
数据域
业务过程
交易域
加购、下单、取消订单、支付乐成、退单、退款乐成
流量域
页面欣赏、启动应用、动作、曝光、错误
用户域
注册、登录
互动域
收藏、评价
工具域
优惠券领取、优惠券利用(下单)、优惠券利用(支付)

4、构建业务总线矩阵

业务总线矩阵中包罗维度模子(分为星形模子和雪花模子)所需的所有事实(业务过程)以及维度,以及各业务过程与各维度的关系。矩阵的行是一个个业务过程,矩阵的列是一个个的维度,行列的交点表示业务过程与维度的关系
基于业务总线矩阵就可以构建dwd层和dim层了。

一个业务过程对应维度模子中一张变乱型事实表,一个维度则对应维度模子中的一张维度表。所以构建业务总线矩阵的过程就是筹划维度模子的过程。但是必要留意的是,总线矩阵中通常只包罗变乱型事实表,别的两种范例的事实表(周期型快照事实表(办理存量型和状态型指标,例如余额、库存、空气温度、行驶速度)、累计型快照事实表(将一个业务流程中的多个业务过程联合处理,例如交易流程中的下单日期、支付日期、发货日期、确认收货日期))需单独筹划。
5、明确统计指标

明确统计指标具体的工作是,深入分析需求,构建指标体系。构建指标体系的主要意义就是指标定义标准化。所有指标的定义,都必须遵循同一套标准,如许能有用的避免指标定义存在歧义,指标定义重复等问题。
1)指标体系干系概念
(1)原子指标
原子指标基于某一业务过程度量值,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的聚合逻辑举行了定义。我们可以得出结论,原子指标包罗三要素,分别是业务过程、度量值和聚合逻辑。
例如订单总额就是一个典型的原子指标,其中的业务过程为用户下单、度量值为订单金额,聚合逻辑为sum()求和。必要留意的是原子指标只是用来辅助定义指标一个概念,通常不会对应有现实统计需求与之对应。
(2)派生指标
派生指标基于原子指标,其与原子指标的关系如下图所示。

与原子指标差别,派生指标通常会对应现实的统计需求。请从图中的例子中,体会指标定义标准化的寄义。
(3)衍生指标
衍生指标是在一个或多个派生指标的基础上,通过各种逻辑运算复合而成的。例如比率、比例等范例的指标。衍生指标也会对应现实的统计需求。

2)指标体系对于数仓建模的意义
通过上述两个具体的案例可以看出,绝大多数的统计需求,都可以利用原子指标、派生指标以及衍生指标这套标准去定义。同时可以或许发现这些统计需求都直接的或间接的对应一个大概是多个派生指标。
当统计需求足够多时,必然会出现部分统计需求对应的派生指标相同的情况。这种情况下,我们就可以考虑将这些公共的派生指标生存下来,如许做的主要目标就是减少重复盘算,进步数据的复用性。
这些公共的派生指标同一生存在数据仓库的DWS层。因此DWS层筹划,就可以参考我们根据现有的统计需求整理出的派生指标。
6、维度模子筹划

维度模子的筹划参照上述得到的业务总线矩阵即可。事实表存储在DWD层,维度表存储在DIM层。
7、汇总模子筹划

汇总模子的筹划参考上述整理出的指标体系(主要是派生指标)即可。汇总表与派生指标的对应关系是,一张汇总表通常包罗业务过程相同、统计周期相同、统计粒度相同的多个派生指标

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4