论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
读数据工程之道:设计和构建健壮的数据系统09示例和范例 ...
读数据工程之道:设计和构建健壮的数据系统09示例和范例 ...
小小小幸运
金牌会员
|
2024-10-15 05:57:54
|
显示全部楼层
|
阅读模式
楼主
主题
850
|
帖子
850
|
积分
2550
1. 数据架构不是凭空设计的
1.1. 数据架构是一门抽象学科,所以它有助于通过示例进行推理
2. 数据仓库
2.1. 一个面向主题的、集成的、非易失性和时变的数据集合,以支持管理决策
2.2. 数据仓库是用于报告和分析的中央数据中心
2.2.1. 数据仓库中的数据通常针对分析用例进行了高度格式化和结构化
2.2.2. 是最古老和最美满的数据架构之一
2.3. 构造型
2.3.1. 构造型数据仓库架构构造与某些业务团队结构和流程相关的数据
2.3.2. 将联机分析处置惩罚(OLAP)与生产数据库(联机事件处置惩罚,Online Transaction Processing,OLTP)分离
2.3.3. 将数据移动到一个单独的物理系统中,可以将负载从生产系统转移出去,并进步分析性能
2.3.4. 传统上,数据仓库通过利用ETL从应用程序系统中获取数据
2.3.4.1. 提取阶段从源系统中获取数据
2.4. 技术型
2.4.1. 技术型数据仓库架构反映了数据仓库的技术性质
2.4.2. ETL的一种变体是ELT
2.4.3. 转换不是利用外部系统,而是直接在数据仓库中处置惩罚
2.4.4. 目的是利用云数据仓库和数据处置惩罚工具的巨大计算能力
2.5. 云数据仓库
2.5.1. 云数据仓库代表了本地数据仓库架构的重大演变,因此导致了构造架构的重大变化
2.5.2. 云数据仓库扩展了MPP系统的功能,以涵盖最近需要Hadoop集群的许多大数据用例
2.5.3. 通常支持允许每行存储数十兆字节原始文本数据或极其丰富和复杂的JSON文档的数据结构
2.5.4. 随着云数据仓库(和数据湖)的成熟,数据仓库和数据湖之间的界限将继续模糊
2.6. 数据仓库提供了开箱即用的基本数据管理功能,而SQL是编写复杂、高性能查询和转换的有效工
3. 数据集市
3.1. 数据集市是仓库的一个更精细的子集,旨在为分析和报告提供服务,专注于一个单一的子构造、部门或业务线
3.2. 数据集市使分析师和报告开发职员更容易访问数据
3.3. 数据集市在初始ETL或ELT管道提供的转换阶段之外提供了一个额外的转换阶段
4. 数据湖
4.1. 大数据期间出现的最流行的架构之一是数据湖
4.2. 数据湖有望成为一股民主化的力量,解放企业,让它们从无穷数据的源泉中畅饮
4.3. 数据湖1.0始于HDFS
4.3.1. 随着云越来越受欢迎,这些数据湖转移到基于云的对象存储,存储本钱极其低廉,存储容量险些是无穷的
4.3.2. 数据湖不依赖于存储和计算紧耦合的单一数据仓库,它允许存储任何巨细和范例的大量数据
4.3.3. 当需要查询或转换这些数据时,你可以通过按需启动集群来得到险些无穷的计算能力,并且你可以为手头的任务选择你最喜好的数据处置惩罚技术
4.3.3.1. MapReduce
4.3.3.2. Spark
4.3.3.3. Ray
4.3.3.4. Presto
4.3.3.5. Hive
4.3.4. 数据湖成了垃圾场
4.3.4.1. 数据沼泽、暗数据和WORN等术语是在曾经有希望的数据项目失败时创造出来的
4.3.5. 廉价的现成硬件将代替定制的供应商解决方案
4.3.5.1. 由于管理Hadoop集群的复杂性迫使公司以高薪聘请大量的工程师团队,因此大数据本钱激增
4.3.5.2. 公司通常选择从供应商处购买允许的、定制的Hadoop版本,以制止原始Apache代码库的裸线和锋利边缘,并得到一套脚手架工具,使Hadoop更加用户友爱
4.3.5.3. 纵然是制止利用云存储管理Hadoop集群的公司也不得不泯灭大量人才来编写MapReduce作业
4.4. 公司拥有足够的资源来构建成功的数据实践,并创建基于Hadoop的自界说工具和增强功能
4.4.1. 对于许多构造而言,数据湖变成了浪费、令人扫兴和本钱不断上升的内部超等垃圾场合
5. 数据湖仓一体
5.1. 数据湖仓一体一词暗示了数据湖和数据仓库之间的融合
5.2. 云数据仓库将计算与存储分开,支持PB级的查询,存储各种非结构化数据和半结构化对象,并与先进的处置惩罚技术(如Spark或Beam)集成
5.3. AWS、Azure、Google Cloud、Snowflake和Databricks是一流的领导者,每家都提供了一系列紧密集成的工具来处置惩罚数据,从关系型到完全非结构化
5.4. 未来的数据工程师可以根据各种因素,包括供应商、生态系统和相对开放性,选择一个融合的数据平台,而不是在数据湖或数据仓库架构之间进行选择
6. 现代数据栈
6.1. 现代数据栈是目前流行的分析架构,突出了我们希望在未来几年内看到更广泛利用的抽象范例
6.2. 现代数据栈的重要结果是自助服务(分析和管道)、敏捷数据管理以及利用开源工具或具有明白定价结构的简单专有工具
6.3. 现代数据栈现在是并将继续是数据架构的默认选择
7. Lambda架构
7.1. 在Lambda架构中,你的系统彼此独立运行——批处置惩罚、流处置惩罚和服务
7.2. 流处置惩罚
7.2.1. 流处置惩罚的目的是在“速度”层(通常是NoSQL数据库)中以尽可能低的延迟为数据提供服务
7.3. 批处置惩罚
7.3.1. 在批处置惩罚层,数据在数据仓库等系统中进行处置惩罚和转换,创建数据的预计算和聚合的数据视图
7.4. 服务层通过聚合来自两个层的查询结果来提供组合视图
8. Kappa架构
8.1. 通过直接读取实时事件流并重放大块数据以进行批处置惩罚,可以将实时和批处置惩罚无缝地应用于相同的数据
9. Dataflow模型
9.1. Dataflow模型的核心头脑是将所有数据视为事件,由于聚合是在各种范例的窗口上实行的
9.2. 持续的实时事件流是无边界的数据
9.3. 数据批次只是有界事件流,边界提供了一个自然窗口
9.4. “批处置惩罚作为流处置惩罚的特例”的理念现在更加普遍
10. 物联网架构
10.1. 物联网是装备的分布式集合,又称为事物——计算机、传感器、移动装备、智能家居装备以及任何其他具有互联网毗连的装备
10.2. 由定期或连续从四周情况收集数据并将其传输到目的地的装备生成
10.3. 物联网装备通常是低功耗的,并且在低资源/低带宽情况中运行
10.4. 物联网已经从未来主义的理想演变为海量数据工程领域
10.5. 装备
10.5.1. 装备(也称为事物)是毗连到互联网的物理硬件,可以感知四周的情况、收集数据并将其传输到下游目的地
10.5.2. 装备应该至少能够收集和传输数据
10.6. 物联网网关
10.6.1. 物联网网关是毗连装备并将装备安全路由到互联网上适当目的地的枢纽
10.6.2. 固然你可以在没有物联网网关的情况下将装备直接毗连到互联网,但网关允许装备利用极少的功率进行毗连
10.6.3. 充当数据保存的中转站,并管理与最终数据目的地的互联网毗连
10.6.4. 新的低功耗WiFi标准旨在降低物联网网关在未来的重要性
10.7. 存储
10.7.1. 存储要求在很大程度上取决于系统中物联网装备的延迟要求
10.8. 服务
10.8.1. 服务模式非常多样化
10.8.2. IoT的一种重要服务模式雷同于反向ETL
11. 数据网格
11.1. 数据网格是最近对庞大的单一数据平台(例如集中式数据湖和数据仓库)以及“数据大分水岭”的回应,其中数据分为运营数据和分析数据
11.2. 数据网格试图反转集中式数据架构的挑战,采用领域驱动设计的概念(通常用于软件架构)并将其应用于数据架构
11.3. 关键构成部门
11.3.1. 面向领域的分散式数据所有权和架构
11.3.2. 数据作为产品
11.3.3. 自助式数据基础架构作为平台
11.3.4. 团结计算治理
12. 其他数据架构
12.1. 数据中心
12.2. 缩放架构
12.3. 元数据优先架构
12.4. 事件驱动架构
12.5. 实时数据栈
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
小小小幸运
金牌会员
这个人很懒什么都没写!
楼主热帖
青龙2.10.13 稳定版+xdd-plus+阿东教程 ...
软件项目管理 7.4.5.进度计划编排-敏捷 ...
收藏:再谈软件定义存储发展及现状 ...
Ubuntu如何安装Mysql+启用远程连接[完 ...
京准电钟北斗时钟服务器,GPS网络时间服 ...
5.2 基于ROP漏洞挖掘与利用
【学习笔记】WPF-01:前言
【.NET】控制台应用程序的各种交互玩法 ...
权限提升(1)
python-map()函数基本用法
标签云
存储
挺好的
服务器
快速回复
返回顶部
返回列表