只需一步,快速开始
主题 1880|帖子 1880|积分 5640
3.5.1.5.1. 发现性
3.5.1.5.1.1. 在数据驱动型公司中,数据必须可用且可发现
3.5.1.5.1.2. 终端用户应该能够快速可靠地访问他们完成工作所需的数据
3.5.1.5.1.3. 他们应该知道数据的来源、数据与其他数据的关系,以及数据的寄义
3.5.2.2.1. 固件工程师为IoT设备开辟记录的数据格式
3.5.2.2.2. Web应用程序开辟人员设计对API调用
3.5.2.2.3. MySQL表模式的JSON响应
3.5.3.5.1. DODD一直观测其血缘的数据
3.5.3.5.2. DODD的目的是让数据链中的每个人都能看到数据和数据应用程序,以便数据价值链中的每个人都能够从获取到转换再到分析的每个步调中识别数据或数据应用程序的厘革,以帮助办理或防止数据题目
3.5.3.5.3. DODD专注于使数据可观测性成为数据工程生命周期中的首要考虑因素
3.5.6.2.1. 味着我们有即付即得的存储本钱,而不是本地数据湖的大量前期资本支出
3.5.6.3.1. 数据工程师必须知道他们保留了哪些消耗者数据,而且必须具有销毁数据的程序以响应请求和合规性要求
3.5.6.4.1. SQL语义答应删除符合where子句的行
3.5.6.4.2. 数据销毁在数据湖中更具挑战性,其中一次写入、多次读取是默认的存储模式
3.5.6.4.3. Hive ACID和Delta Lake等工具可以答应大规模删除事务的轻松管理
4.8.4.1.1. 编排是协调跨各种系统的工作流的中心枢纽
4.8.4.1.2. 编排系统可以提供操纵元数据的有限情况,但后者仍然倾向于分散在许多系统中
4.8.4.1.3. 在编排系统中捕获的管道元数据提供了工作流筹划、系统和数据依赖性、配置、连接细节等的详细信息
4.8.4.2.1. 数据血缘元数据跟踪数据随着时间的推移的劈头和厘革,以及它的依赖性
4.8.4.2.2. 随着数据流经数据工程生命周期,它会通过转换和与其他数据的组合而不断发展
4.8.4.2.3. 数据血缘提供了数据在各种系统和工作流中移动时演变的审计线索
4.8.4.3.1. 模式元数据形貌了存储在数据库、数据仓库、数据湖或文件系统等系统中的数据结构
4.8.4.3.2. 是不同存储系统的关键区别之一
4.8.4.3.3. 模式元数据必须在元数据存储中举行管理
4.8.4.3.4. 云数据仓库在内部管理模式元数据
4.8.4.4.1. 操纵元数据形貌了各种系统的运行效果,包罗进程统计、作业ID、应用程序运行日志、进程中利用的数据和错误日志
4.8.4.4.2. 数据工程师利用操纵元数据来确定流程是成功还是失败,以及流程中涉及的数据
4.8.4.4.3. 对更高质量的操纵元数据和更好的元数据管理的需求是下一代编排和元数据管理系统的主要动机
4.8.4.5.1. 参考元数据是用于对其他数据举行分类的数据,也称为查找数据
4.8.4.5.2. 参考数据的标准示例是内部代码、地理代码、测量单位和内部日历标准
4.8.4.5.3. 大部分参考数据完全在内部管理,但地理代码等项目可能来自标准外部参考
4.8.4.5.4. 参考数据本质上是解释其他数据的标准,因此假如它发生厘革,则这种厘革会随着时间慢慢发生
您需要 登录 才可以下载或查看,没有账号?立即注册
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
怀念夏天