ToB企服应用市场:ToB评测及商务社交产业平台
标题:
数据模型篇之阿里巴巴数据整合及管理体系
[打印本页]
作者:
反转基因福娃
时间:
2024-9-30 04:46
标题:
数据模型篇之阿里巴巴数据整合及管理体系
第9章 阿里巴巴整合及管理体系
OneData
的设计是为了建设统一的、规范化的数据接人层( ODS )和数据中心层( DWD和DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设 ,即数据公共层建设。提供标准化的( Standard )、共享的( Shared )、数据服务( Service )能力,降低数据互通本钱,开释盘算、存储、人力等资源,以消除业务和技术之痛。
1. OneData体系架构
业务板块
由于阿里巴巴团体业务生态庞大,所以根据业务的属性分别出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B系和 AliExpess系等。
规范定义
规范定义指以维度建模作为理论基础 构建总线矩阵,分别和
定义数据域、业务过程、维度、度量 原子指标、修饰范例、修饰词、时间周期、派生指标
。
名词术语解释数据域指面向业务分析,将业务过程或者维度进行抽象的聚集。其中,业务过程可以概括为一 个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度数据域的情况,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是必要抽象提炼,并且长期维护和更新的,但不轻易变动。在分别数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域业务过程指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件时间周期用来明白数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等修饰范例是对修饰词的一种抽象分别。修饰范例从属于某个业务域,如日志域的访问终端范例涵盖无线端、 PC端等修饰词修饰词指除了统计维度以外指标的业务场景限定抽象。修饰词从属于一种修饰范例,如在日志域的访问终端范例下,有修饰词 PC 端、无线端等度量/原子指标原子指标和度自含义雷同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明白业务含义的名词 ,如支付金额维度维度是度量的情况,用来反映业务的一类属性,这类属性的聚集构成一个维度也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及都会等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)维度属性维度属性从属于一个维度,如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性派生指标派生指标= 一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度,而不作为修饰词)
模型设计
(1)引导理论
维度建模理论:基于维度数据模型总线架构,构建一致性的维度和究竟。
(2)模型条理
① 操作数据层(ODS)
功能:同步;结构化;累积历史、清洗
② 公共维度模型层(DM):明细数据层(DWD)+汇总数据层(DWS)
功能:组合相干和相似数据;公共指标统一加工;建立一致性维度
③ 应用数据层( DS )
功能:个性化指标加工;基于应用的数据组装
(3)基本原则
高内聚和低辑合
焦点模型与扩展模型分离
公共处理逻辑下沉及单一
本钱与性能平衡
数据可回滚
一致性
定名清晰、可理解
2.模型实行
业界常用模型实行过程
(1)Kimball 模型实行过程
高层模型
具体模型
模型检察、再设计和验证
提交 ETL 设计和开发
参考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit
(2)Inmon 模型实行过程
三个条理:
ERD (Entity Relationship Diagram ,实体关系图)层
DIS (Data Item Set 数据项集)层
物理层(Physical Model ,物理模型)
参考:Inmon, Building the Data Warehouse
(3)其他模型实行过程
业务建模,天生业务模型
范畴建模,天生范畴模型
逻辑建模,天生逻辑模型
物理建模,天生物理模型
OneData模型实行过程
(1)引导方针
首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。
其次,进行数据总体架构设计,重要根据数据域对数据进行分别;按照维度建模理论,构建总线矩阵、抽出业务过程和维度。
再次,对报表需求进行抽象整理出相干指标体系,利用 OneData 工具完成指标规范定义和模型设计。
末了,就是代码研发和运维。
(2)实行工作流
OneDatade的实行过程是一个高度迭代和动态的过程,一般接纳螺旋式实行方法。
① 数据调研
业务调研
需求调研
②架构设计
数据域分别
构建总线矩阵
③ 规范定义
重要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
④ 模型设计
重要包括维度及属性的规范定义,维表、明细究竟表和汇总究竟表的模型设计。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4