作为业界顶流,当然是不会刷「An Empirical Comparison of xxx」的水文。不过 What Goes Around Comes Around 的标题也着实特殊,中文翻译过来是「种瓜得瓜,种豆得豆」,「因果报应」,而后面又跟了一个 Around。其实这是一篇续作,在差不多 20 年前,Stonebraker 教授和另一位教授,UC 伯克利的 Joseph M. Hellerstein 曾经合著了一篇
谈到被 AI 带起来的向量数据库,论文的观点是传统的关系型数据库和向量数据库,会和当年的 NoSQL 一样,双向奔赴。
系统架构
列存系统因为优越的性能颠覆了整个数据仓库。
云改变了整个数据库架构,也是所谓的云原生数据库。
云模式也诞生了新的商业模式,以及开源厂商和云厂商间新的商业竞争。
数据湖从一个看似糟糕的主意,颠末各种中间件加持,变得可以担当了(数据量那么大,也没有办法)。
NewSQL 同时吸收传统关系型数据库和 NoSQL 的优点。
硬件加快,无足轻重。
区块链数据库,币圈交易所自己都不消。
教授的总结
Oracle,MySQL,Mongo,流行难道是原罪?
小心大公司开源的数据库,人家只是为了提升,还请你们不要当真。
上手体验很紧张,瞧瞧人家 DuckDB。
ORM 是不错,但到头来 SQL 也还是逃不过。
数据库结合 AI,长期乐观,短期怎么交差?
个人点评
前后两篇 What Goes Around Comes Around 都很值得一读。我是在 2010 年前后读到了第一篇,由那篇论文才得以系统性地了解数据库的发展史。而最近的这篇,一方面有近 20 年纪据库的发展更新,一方面也有对第一篇里的复盘,所以包含了更多的商业洞见。历史对未来总是有鉴戒意义,好比对于向量数据库的展望,我们可以参考之前 NoSQL 数据库的发展。但未来又总是无法预测,纵然是环球最顶尖的教授,在当年的第一篇论文里,Open-Source 和 Cloud 两个词的出现次数均为 0。
从大型机,小型机,到互联网,云计算,每一次信息行业的变革,数据库都不会缺席。当下的数据库虽然暂时被沉没在了 AI 的海潮中,但未来可期。毕竟当年我们只能看到 NoSQL,但也没想到后面更大的云和开源。
希望 Stonebraker 老爷子保重身材,20 年后完成三部曲。
2005 What Goes Around Comes Around. Michael Stonebraker, Joseph M. Hellerstein
https://15721.courses.cs.cmu.edu/spring2020/papers/01-intro/whatgoesaround-stonebraker.pdf
2024 What Goes Around Comes Around… And Around… Michael Stonebraker, Andrew Pavlo
https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf