ToB企服应用市场:ToB评测及商务社交产业平台

标题: 读数据工程之道:设计和构建结实的数据体系20数据工程存储抽象 [打印本页]

作者: 河曲智叟    时间: 2024-10-26 05:40
标题: 读数据工程之道:设计和构建结实的数据体系20数据工程存储抽象

1. 数据工程存储抽象

1.1. 数据工程存储抽象是数据构造和查询模式,位于数据工程生命周期的核心,创建在之前讨论的数据存储体系之上
1.2. 关键的考虑
2. 数据仓库

2.1. 数据仓库是一个标准的OLAP数据架构
2.2. 数据仓库一词指的是技能平台(如Google BigQuery和Teradata)​、数据集中化的架构以及公司内部的构造模式
2.3. 云数据仓库
3. 数据湖

3.1. 数据湖最初被以为是一个大规模的存储,数据以原始的、未处置惩罚的形式被保存
3.2. 最初,数据湖主要创建在Hadoop体系上,廉价的存储允许保存大量的数据,而没有专有MPP体系的成本开销
3.3. 主要的进展
4. 数据湖仓一体

4.1. 数据湖仓一体是一个结合了数据仓库和数据湖的架构
4.2. 湖仓一体在对象存储中存储数据,就像一个湖一样
4.3. 湖仓一体体系是一个元数据和文件管理层,与数据管理和转换工具一起部署
4.4. 数据湖仓一体的关键优势是互操作性
4.5. 数据湖仓一体中的许多数据大概没有强加表结构
5. 存储的紧张思想和趋势

5.1. 数据目次
5.2. 数据共享
5.3. 模式
  1. >  5.3.4.3.1. 代价是在未来消费数据时更加困难
复制代码
5.4. 计算与存储的分离
  1. >  5.4.2.1.1. 购买和托管一台服务器要比从云提供商那里租来的便宜,只要你每天24小时不停地运行它,连续数年
  2. >  5.4.2.1.2. 工作负荷变化很大,如果服务器可以扩大和缩小,那么采用即付即得模式就能实现显著的效率
复制代码
  1. >  5.4.2.2.1. 云对象存储大大减轻了数据丢失的风险,通常提供极高的正常运行时间(可用性)​
  2. >  5.4.2.2.2. 因错误配置而破坏对象存储中数据的可能性仍然有些可怕,但有简单部署的缓解措施
复制代码
  1. >  5.4.2.3.1. 多层缓存
  2.   >   5.4.2.3.1.1. 通过多层缓存,我们利用对象存储进行长期的数据保留和访问,但在查询和数据管道的各个阶段使用本地存储来启动
  3. >  5.4.2.3.2. 混合对象存储
  4.   >   5.4.2.3.2.1. 结合了对象存储的简洁抽象和计算存储的一些优势
  5. >  5.4.2.3.3. Spark通常在HDFS或其他一些短暂的分布式文件系统上运行作业,以支持处理步骤之间的数据的高性能存储
  6. >  5.4.2.3.4. 保持数据的持久性仍然是至关重要的,所以Druid使用对象存储作为其持久性层
复制代码
  1. >  5.4.2.4.1. 基于对象存储的云系统支持零拷贝克隆
  2. >  5.4.2.4.2. 零拷贝克隆通常意味着一个对象的新的虚拟副本被创建(例如,一个新的表)​,而不一定要物理复制基础数据
  3. >  5.4.2.4.3. 零拷贝克隆是一个引人注目的功能,但工程师必须了解它的优点和局限性
复制代码
5.5. 数据存储的生命周期和数据保存
  1. >  5.5.2.1.1. 热数据
  2.   >   5.5.2.1.1.1. 热数据有即时或频繁的访问要求。热数据的底层存储适合于快速访问和读取,如SSD或内存
  3.   >   5.5.2.1.1.2. 存储热数据往往是最昂贵的存储形式
  4.   >   5.5.2.1.1.3. 热数据的用例包括检索产品推荐和产品页面结果
  5.   >   5.5.2.1.1.4. 储存热数据的成本是这三个存储层中最高的,但检索往往是廉价的
  6. >  5.5.2.1.2. 暖数据
  7.   >   5.5.2.1.2.1. 暖数据的访问是半定期的,例如每月一次
  8.   >   5.5.2.1.2.2. 没有硬性规定表明暖数据的访问频率,但它比热数据少,比冷数据多
  9. >  5.5.2.1.3. 冷数据
  10.   >   5.5.2.1.3.1. 在另一个极端,冷数据是不经常访问的数据
  11.   >   5.5.2.1.3.2. 用于归档冷数据的硬件通常是廉价和耐用的,如HDD、磁带存储和基于云的归档系统
  12.   >   5.5.2.1.3.3. 当几乎没有人打算访问这些数据时,冷数据主要是为了长期存档
  13.   >   5.5.2.1.3.4. 虽然存储冷数据很便宜,但检索冷数据往往很昂贵
  14.   >   5.5.2.1.3.5. 冷存储在归档数据方面很受欢迎
复制代码
5.5.2.1.3.5.1. 汗青上,冷存储涉及物理备份,并经常将这些数据邮寄给第三方,由其在字面上的保险库中存档
  1.   >   5.5.2.1.3.6. 冷存储在云中越来越受欢迎
复制代码
  1. >  5.5.2.4.1. 如果你把所有的数据存储在冷存储中以节省成本,你当然会降低你的存储成本,但代价是延长检索时间
  2. >  5.5.2.4.2. 如果你需要访问数据,则要付出高昂的检索费用
复制代码
  1. >  5.5.4.1.1. 数据是一种资产,所以你应该知道你所存储的数据的价值
复制代码
  1. >  5.5.4.2.1. 对下游用户的价值也取决于数据的年龄
复制代码
  1. >  5.5.4.3.1. 某些法规可能要求你在一定时间内保留数据
复制代码
  1. >  5.5.4.4.1. 数据是一种资产,​希望有一个投资回报率
  2. >  5.5.4.4.2. 在投资回报率的成本方面,一个明显的存储费用是与数据相关的
复制代码
5.6. 单租户与多租户存储的对比
  1. >  5.6.2.4.1. 意味着你可以自由地将每个租户的存储环境设计成统一的,或者让他们任意发展
复制代码
6. 其他

6.1. 存储是数据工程基础办法的核心
6.2. 你将与拥有你的IT基础办法的人互动
6.3. 数据存储的责任分别将在很大水平上取决于相干构造的成熟度
6.4. 数据工程师需要确保卑鄙用户使用的存储体系是安全可用的、包罗高质量的数据、有充足的存储容量,并在查询和转换运行时执行
6.5. 底层设计
  1. >  6.5.2.2.1. 除非需要,否则不要给任何人完整的数据库访问权
  2. >  6.5.2.2.2. 意味着大多数数据工程师在实践中不需要完全的数据库访问
复制代码
  1. >  6.5.3.1.1. 数据通过强大的元数据得到加强
复制代码
  1. >  6.5.3.2.1. 主要的云对象存储系统能够实现数据版本管理
复制代码
  1. >  6.5.3.3.1. 任何具有隐私影响的数据都有一个生命周期,数据工程师必须管理
  2. >  6.5.3.3.2. 隐私法规对存储系统设计产生了重大影响
  3. >  6.5.3.3.3. 数据工程师必须准备好响应数据删除请求,并根据需要选择性地删除数据
复制代码

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4