论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
【Azure 架构师学习条记】- Azure Databricks (17) --De ...
【Azure 架构师学习条记】- Azure Databricks (17) --Delta Live Table和De ...
乌市泽哥
金牌会员
|
2025-3-13 02:48:08
|
显示全部楼层
|
阅读模式
楼主
主题
987
|
帖子
987
|
积分
2961
本文属于【Azure 架构师学习条记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习条记】- Azure Databricks (16) – Delta Lake 和 ADLS整合
媒介
前面先容了Delta Table,但是Databricks又推出了“Delta Live Tables(DLTs)”这两者名字太像了以至于很容易混淆。
Delta Table是一个存储数据到表里面的方式。而DLTs可以用于通过声明式定义来形貌在这些表之间的数据流。
也就是说DLTs是一个通过创建和保持数据更新用于管理很多delta table的声明式框架。
Delta Table:数据格式。
Delta Live Tables:数据管道框架(data pipeline framework)
DLTs的好处
Pipeline 可视化
DLTs 使用有向无环图战士所有数据PL(pipeline)的负载,对于非常复杂的PL而言非常有效。同时还可以看到数据是如何从bronze流到终极的gold层。在UC里面也可以通过data lineage(数据学院)来实现,但是对于那些还没有启用UC 的项目而言这是一个替代方案。
CDC 和性能优化
当你的PL 有大量的增删改操作时,CDC能够非常显着地提升速度,特别是对于SCD Type1 到Type2,也就是在lakehouse中,可以保留数据的历史。同时通过默认的delta 格式自动压缩从而极大地提高性能。这种自动压缩式通过把小文件合并来淘汰parquet对小文件处理性能差的问题。
易用
由于图形化界面使得debug的时候相比于使用Python等语言更加容易实现。
ACID
DTLs搭建在Delta table之上,使用Delta格式,前文已经提及过,Delta table具有ACID特性能够保证数据的同等性和数据质量。所以DLT自然也具有ACID 。
DLTs的留意事项
这里称为留意事项而不是缺点,因为大概它们并不是真正的不好的东西,而是需要评估是否有问题,或者只是一种当前的技能限制。
数据体量:固然lakehouse可以处理大体量的数据,但是集群一旦要处理很大量的数据,对单个集群来说是一个负担,哪怕你的集群不停增长节点, 成本也会很高。(发起:对数据源进行预处理,如分区,拆分批处理,使得每个批处理相对较小)
外部体系的集成: DLT的设计中间在于批处理数据集成,对于流式盘算通常需要额外的底子架构如Kafka等。
版本控制和回滚:固然Delta有time travl本领,但是真要回滚的时候,从状态管理和部分回滚方面,都并不是简朴的事。
DLTs和Delta Tables 对比
小结
简朴来说,DLT不是简朴的“table”,而是一个ETL 过程。接下来的几篇将会演示一些使用。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
乌市泽哥
金牌会员
这个人很懒什么都没写!
楼主热帖
是什么让.NET7的Min和Max方法性能暴增 ...
@RequestParam,@PathVariable两个注解 ...
2019 第十届蓝桥杯大赛软件赛决赛,国 ...
SqlServer远程连接
售前的职场生存法则
7 行代码搞崩溃 B 站,原因令人唏嘘! ...
想入行SAP咨询,最具性价比的方式 ...
MySQL审计插件-MariaDB Audit Plugin ...
CentOS7 安装 Redis 7.0.2
[WPF] 使用 HandyControl 的 CirclePan ...
标签云
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
快速回复
返回顶部
返回列表