IT评测·应用市场-qidao123.com技术社区

标题: 读数据工程之道:设计和构建健壮的数据体系26数据建模 [打印本页]

作者: 铁佛    时间: 2024-11-3 06:34
标题: 读数据工程之道:设计和构建健壮的数据体系26数据建模

1. 数据建模

1.1. 良好的数据架构必须反映出使用这些数据的组织的业务目的和业务逻辑
1.2. 数据湖1.0、NoSQL和大数据体系的兴起,使工程师们有时是为了公道的性能提拔去忽略传统的数据建模
1.3. 数据在企业中的地位急剧上升,人们越来越熟悉到,建模对于实现数据科学需求层次金字塔中更高层次的价值至关重要
2. 数据模型

2.1. 数据模型代表了数据与现实天下的接洽方式
2.2. 反映了数据需要如何结构化和尺度化才华最好地反映你的组织的流程、界说、工作流和逻辑
2.3. 一些数据专家认为数据建模是乏味的,是“大企业”才会做的事情
2.4. 对数据进行建模的关键是要关注如何将模型转化为业务结果
2.5. 数据建模的头脑就是从抽象的建模概念移动到详细的实现
2.6. 重要的数据模型
2.7. 成功的数据建模在过程的开始阶段就引入业务利益相关者
2.8. 数据建模的另一个重要考虑因素是数据的粒度,也就是数据的存储和查询的最小单元
2.9. 应该努力将你的数据建模维持在尽可能低的粒度层级
3. 范式化

3.1. 范式化是一种对数据库中的表和列的关系进行严格控制的数据建模实践
3.2. 范式化的目的是消除数据库中的冗余数据,并确保参照完整性
3.3. 是在数据库中实践“不要重复自己”(Don't Repeat Yourself,DRY)的原则
3.4. 由关系数据库的先驱Edgar Codd在20世纪70年代初首次提出的
3.5. 四个重要目的
3.6. 范式是有顺序的,每个范式都包含了之前范式的条件
3.7. 只管去范式化看起来像是一种反模式,但它在许多存储半结构化数据的OLAP体系中很常见
4. 建模技术

4.1. 星型模式
4.2. Inmon
4.3. Kimball模型
4.3.3.2.5.1.1. 覆盖现有的维度记录
4.3.3.2.5.1.2. 很简单的但是这意味着你无法访问被删除的历史维度记录
4.3.3.2.5.1.3. 是大多数数据堆栈的默认行为
  1.   >   4.3.3.2.5.2. 第二类
复制代码
4.3.3.2.5.2.1. 保留完整的历史维度记录
4.3.3.2.5.2.2. 是我们在实践中最常看到的一种
  1.   >   4.3.3.2.5.3. 第三类
复制代码
4.3.3.2.5.3.1. 第三类缓慢变革维度与第二类相似,但是在第三类中不是创建一个新行,而是创建一个新的字段
4.4. Data Vault模型
4.5. 去范式化的宽表
5. 流数据的建模

5.1. 由于流数据的无界性和连续性,将Kimball如许的批处理技术转化为流范式是很困难的,甚至是不可能的
5.2. 存在两种重要类型的流:事件流和变动数据捕获
5.3. 建议猜测源数据的变革,并保持一个灵活的模式

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4