大数据-222 离线数仓 - 数仓 数仓模型 事实表 维度表 雪花模型 事实星座 元 ...

打印 上一主题 下一主题

主题 866|帖子 866|积分 2598

点一下关注吧!!!非常感谢!!持续更新!!!

现在已经更新到了:



  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(正在更新…)
章节内容

上节我们完成了如下的内容:


  • 数据集市 建模方法
  • 数仓分层 ODS DW ADS

数仓模型

事实表与维度表

在数据堆栈中,生存度量值的详细值或事实的表称为事实表。
事实数据通常包含大量的行,事实数据表的主要特点是包含数字数据(事实),而且这些数字信息可以汇总,以提供有关单位作为历史的数据,事实表的粒度决定了数据堆栈中数据的详细水平。
常见事实表

常见的事实表:订单事实表
事实表的特点:表多(各种各样的事实表),数据量大
事实表根据数据的粒度可以分为:


  • 事务事实表
  • 周期快照事实表
  • 累积快照事实表
常见维度表

维度表(维表)可以看做是用来分析数据的角度,维度表中包含事实数据表在中事实记载的特性。有些特性提供形貌性信息,有些特性指定怎样汇总事实数据表数据,以便为分析者提供有用的信息。
常见维度表:


  • 时间维度
  • 地域维度
  • 商品维度
简单小结



  • 事实表是关注的内容(如:销售额、销售量)
  • 维度表是观察事务的角度
事实表分类

事务事实表

事务事实表记载的事务层面的事实,生存的是最原子的数据,也称为“原子事实表”。事务事实表中的数据在事务变乱发生后产生,数据的粒度通常是每个事务一条记载。
一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。
事务事实表的日期维度记载的是事务发生的日期,它记载的事实是事务活动的内容。如:订单表。通过事务事实表,还可以建立聚集事实表,为用户提供高性能的分析。
周期快照事实表

周期快照事实表以规律性的、可预见的时间隔断来记载事实,时间隔断如每天、每月、每年等等。范例的例子如销售日快照表、库存日快照表等。它统计的是隔断周期内的度量统计,如历史至今、天然年至今、季度至今等等。
累积快照事实表

累积快照事实表和周期快照事实表有些相似之处,它们存储的都是事务数据的快照信息。但是它们之间也有着差别,周期快照事实记载的确定的周期的数据,而积累快照事实记载的不确定的周期的数据。
累积快照事实表代表的是完全覆盖一个事务或产品的生命周期的时间跨度,它通常具有多个日期字段,用来记载整个生命周期中的关键时间点。另外,它还会有一个用于指示末了更新日期的附加日期字段。由于事实表中许多日期在首次加载时是不知道的,以是必须使用代理关键字来处理未界说的日期,而且这类事实表在数据加载完后,是可以对它进行更新的,来补充随后知道的日期信息。
如:订货日期、预定交货日期、实际发货日期、实际交货日期、数目、金额、运费

雪花模型

雪花模型是星型模型的变种,维表是规范化的,模型类似雪花的形状。
特点:雪花布局去除了数据冗余。
星型模型存在数据冗余,以是在查询统计时只必要做少量的表毗连,查询效率高。星型模型不考虑维表正规化的因素,计划、实现容易。
在数据冗余可担当的情况下,实际上使用星型模型比力多。
雪花模型的布局

事实表:
雪花模型的核心部分照旧事实表,事实表通常存储了业务变乱的度量数据,如销售额、订单数目等。
事实表包含指向维度表的外键。
维度表:
在雪花模型中,维度表进行规范化,意味着同一维度中的差别属性会拆分成多个子表。
例如,“客户”维度大概包含多个层级的属性:客户的根本信息大概存储在一个表中,而客户的地址信息大概存储在另一个单独的表中。这种方式使得维度表的数据冗余淘汰,提高了数据一致性。
子维度表:
雪花模型的一个特点是维度表的“分层”布局。例如,地理维度大概会被拆分成“国家”、“省/州”、“都会”等多个子维度表,每个表之间通过外键关联。
雪花模型的优缺点

长处:


  • 数据冗余较低:由于维度表被规范化,雪花模型淘汰了数据的冗余。每个属性只会在相关的表中出现一次,这对于数据更新、删除和维护时,可以淘汰出现数据不一致的风险。
  • 存储空间节流:由于规范化布局淘汰了重复数据,雪花模型相对于星型模型来说在存储上可以节流空间,特别是在处理大规模数据时,上风更加明显。
  • 数据一致性较好:由于每个属性只存在于某个特定的维度表中,数据的一致性和完备性相对更容易保持。

事实星座

数据堆栈由多个主题构成,包含多个事实表,而维表是公共的,可以共享,这种模式可以看做星型模式的搜集。因而称作星系模式大概事实星座模式。
特点:公用维表

元数据

元数据(Metadata)是关于数据的数据,元数据打通了源数据、数据堆栈、数据应用,记载了数据从产生到消费的全过程。元数据就相当于所有数据的舆图,有了这张舆图就能知道数据堆栈中:


  • 有哪些数据
  • 数据分布的情况
  • 数据范例
  • 数据之间有什么关系
  • 哪些数据经常被使用,哪些数据很少有人光顾
在大数据平台中,元数据贯穿大数据平台数据流动的全过程,主要包罗数据源元数据、数据加工处理过程元数据、数据主题专题库元数据、服务层元数据、应用层元数据等。

业务通常把元数据分为以下范例:


  • 技术元数据:库表布局、数据模型、ETL步调、SQL步调等
  • 业务元数据:业务指标、业务代码、业务术语等
  • 管理元数据:数据所有者、数据质量、数据安全等

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

千千梦丶琪

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表