| Hudi
| Delta Lake
| Iceberg
|
读写功能对比 |
ACID Transactions
我可以对列式文件进行版本控制和重写吗?
| | | |
Copy-On-Write
我可以在不重写整个文件的情况下高效地摊销更新吗?
|
|
|
|
Merge-On-Read
我可以高效地将初始加载布局到表中吗?
| | |
功能有限,无法在查询性能与合并性能之间取得平衡。别的,还必要手动维护压缩使用。
|
高效的合并写入,支持记载级索引
(我可以制止将全部底子文件与全部传入的更新/删除记载进行合并吗?)
| | | |
引导启动
(我可以在不重写数据的情况下将数据就地升级到系统中吗?)
| | | |
托管数据摄取
(我可以从流行的来源摄取数据流,并且无需/低代码吗?)
| | | |
并发性
(我可以同时对表运行不同的写入器和表服务吗?)
| | | |
主键
(我可以像在常规数据库表中一样定义主键吗?)
| | | |
列统计与数据跳过
(查询是否可以基于任何列的谓词获益于文件修剪,而无需读取数据文件的页脚?)
| | | |
基于内置函数的数据跳过
(查询是否可以基于定义在列值上的函数进行数据跳过,除了字面上的列值之外?)
| | | |
分区演进
(我可以在使用过程中连续更改表的分区结构吗?)
| | | |
数据去重
(我可以在插入数据时不引入重复项吗?)
| | | |
表服务 |
文件大小设置
(我可以设置一个单一的标准文件大小,以在任何写入表时自动强制执行吗?)
| | | |
压缩
(可以将来自 MoR 写入的更新/删除与变更日志合并吗?)
| | | |
清理
(旧版本的文件会自动从存储中移除吗?)
| | | |
索引管理
(我可以在表上创建新的索引吗?)
| | | |
线性聚类
(我可以线性地将某些数据靠近存放以提高性能吗?)
| | | |
多维 Z-Order/空间曲线聚类(我可以使用空间曲线对高基数数据进行排序以提高性能吗? | | | |
模式演进
(我可以调整我的表的模式吗?)
| | | |
可扩展的元数据管理
(表的元数据可以或许随着数据规模的增长而扩展吗?)
| | | |
平台支持 |
客户端
我可以使用命令行界面(CLI)来管理我的表格吗?
| | | |
数据质量验证
(我可以定义要检查和执行的质量条件吗?)
| | | |
预提交转换器
(我可以在写入时对数据进行提交前的转换吗?)
| | | |
提交关照
(我能在提交成功时收到回调关照吗?)
| | | |
失败提交掩护
(我如何制止部分写入和失败写入使用的影响?)
| | | |
监控
(我可以直接获取指标和监控功能吗?)
| | | |
生存点和规复
(我可以生存数据的快照,然后将表规复到该状态吗?)
| | | |
支持的平台 |
Apache Spark
| Read + Write
| Read + Write
| Read + Write
|
Apache Flink
| Read + Write
| Read + Write
| Read + Write
|
Presto
| Read
| Read
| Read + Write
|
Trino
| Read
| Read + Write
| Read + Write
|
Hive
| Read
| Read
| Read + Write
|
DBT
| Read + Write
| Read + Write
|
|
Kafka Connect
| Write
|
Proprietary only
|
|
Kafka
| Write
| Write
|
|
Pulsar
| Write
| Write
| Write
|
Debezium
| Write
| Write
| Write
|
Kyuubi
| Read + Write
|
| Read + Write
|
ClickHouse
| Read
| Read
|
|
Apache Impala
| Read + Write
|
| Read + Write
|
AWS Athena
| Read
| Read
| Read + Write
|
AWS EMR
| Read + Write
| Read + Write
| Read + Write
|
AWS Redshift
| Read
| Read
|
|
AWS Glue
| Read + Write
| Read + Write
| Read + Write
|
Google BigQuery
| Read
|
| Read
|
Google DataProc
| Read + Write
| Read + Write
| Read + Write
|
Azure Synapse
| Read + Write
| Read + Write
|
|
Azure HDInsight
| Read + Write
| Read + Write
|
|
Databricks
| Read + Write
| Read + Write
| Read + Write
|
Snowflake
|
| Read
| Read + Write
|
Vertica
| Read
| Read
|
|
Apache Doris
| Read
|
| Read
|
Starrocks
| Read
| Preview
| Read
|
Dremio
|
| Read
With limintations
| Read + Write
With limitations
|