ToB企服应用市场:ToB评测及商务社交产业平台

标题: 读数据工程之道:设计和构建结实的数据系统06底层设计(下) [打印本页]

作者: 涛声依旧在    时间: 2024-10-12 11:04
标题: 读数据工程之道:设计和构建结实的数据系统06底层设计(下)

1. 数据问责制

1.1. 数据问责制意味着分配一个人来管理一部门数据
1.2. 数据问责制可以发生在各个层面
2. 数据质量

2.1. 数据质量是数据向抱负状态的优化
2.2. 数据工程师确保整个数据工程生命周期中的数据质量
2.3. 正确性
2.4. 完整性
2.5. 实时性
2.6. 数据质量超过了人类和技术问题的边界
2.7. 主数据管理
3. DataOps

3.1. DataOps将敏捷方法、DevOps和统计过程控制(Statistical Process Control,SPC)的最佳实践映射到数据
3.2. 数据产品与软件产品的区别在于数据的利用方式
3.3. 数据工程师必须相识构建软件产品的技术方面以及将创建良好数据产品的业务逻辑、质量和指标
3.4. 实现
3.5. DataOps是一套文化习惯
3.6. DataOps具有三个核心技术要素:主动化、可观测性和监控以及事件相应
3.7. 主动化
3.8. “拥抱变化”
3.9. 可观测性和监控
3.10. 事件相应
4. 数据架构

4.1. 数据架构反映了支持构造长期数据需求和战略的数据系统的当前和未来状态
4.2. 数据工程师应该首先相识业务需求并收集新用例的需求
4.3. 如果数据工程师与数据架构师一起工作,则数据工程师应该可以或许交付数据架构师的设计并提供架构反馈
5. 编排

5.1. 编排不但是DataOps的核心流程,也是数据作业工程和部署流程的关键部门
5.2. 编排是和谐许多作业以尽可能快速且高效地按照预定节奏运行的过程
5.3. 答应编排系统在没有人为干预的情况下持续感知和监控,并随时运行在部署的新作业
5.4. 编排系统还构建作业历史记录功能、可视化和警报
5.5. 编排不停是数据处理的关键功能,但除了大公司以外,通常不是最紧张的,也不是任何人都可以利用的
5.6. Apache Oozie在21世纪10年代非常盛行,但它是为在Hadoop集群中工作而设计的,很难在更加异构的情况中利用
5.7. Facebook在21世纪00年代后期开发了供内部利用的Dataswarm
5.8. Airflow从一开始就是开源的,并被广泛接纳
5.9. 编排严格来讲是一个批处理的概念
6. 软件工程

6.1. 软件工程不停是数据工程师的一项核心技能
6.2. 核心数据处理代码仍然需要编写,并且贯穿于整个数据工程生命周期
6.3. 重点已经从直接的数据处理转移到抽象的阶梯上
6.4. 流数据处理本质上比批处理更复杂,而且工具和范式可以说还没有那么成熟
6.5. 窗口化答应实时系统盘算有代价的指标,如尾随统计数据
6.6. 基础设施即代码(Infrastructure as Code,IaC)将软件工程实践应用于基础设施的设置和管理
6.7. 流水线即代码是当今编排系统的核心概念,它涉及数据工程生命周期的每个阶段
6.8. 无论数据工程师接纳哪种高级工具,他们都会在整个数据工程生命周期中遇到非常情况,这些情况要求他们解决所选工具范围之外的问题并编写自定义代码

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4