方案三:基于StarRocks主键模型的实时更新方案
原理:StarRocks收到对某行的更新操作时,会通过主键索引找到该条记录的位置,并对其标记为删除,再插入一条新的记录。相当于把Update改写为Delete+Insert。StarRocks收到对某行的删除操作时,会通过主键索引找到该条记录的位置,对其标记为删除。这样在查询时不影响谓词下推和索引的使用, 保证了查询的高效执行。查询速度比Merge on read方式快5-10倍。
优点:
只有唯一版本数据,查询性能强,实时更新
虽然Delete+Insert在写入性能有轻微损失,但总体上还是十分强悍
Mysql协议,使用简单
缺点:
目前版本在数据删除上有一些限制,无法使用delete语句进行删除,新版本中社区会增加此功能
实时更新场景总的来说有以下几种方案:
Merge on read :StarRocks 的聚合、Unique模型和Clickhouse的ReplacingMergeTree、AggregatingMergeTree都是用的此方案。此方案特点是append方式写入性能好,但是查询时需要合并多版本数据导致查询性能不佳。适合数据查询性能要求不高的实时分析场景。
Copy on write :目前一些数据湖系统如hudi、iceberg都有copy on write 的方案现实,此方案原理是当有更新数据后,会合并新老数据并重写一份新的文件替换掉老文件,查询时无需做merge操作,所以查询性能很好。带来的问题是写和数据合并的操作很重,所以此方案不适合实时性强的写入场景。
Delete and insert:此方案是upsert 方案,通过内存中的主键索引定位要更新的行,标记删除然后插入。在牺牲了部分写入性能的情况下,带来查询上数倍于Merge on read 的提升,同时也提升了并发性能。
实时更新在Olap领域一直是一个技术难点,以往的解决方案很难同时具备写入性能好、读取性能好、使用简单这几个特性。StarRocks的Delete and insert方式目前更接近于理想的方案,在读写方面都有很优秀的性能,支持Mysql协议使用上简单友好。同时离线分析Udata也是用StarRocks完成,让我们实现了实时离线分析一体化的目标。
3 后续方向