麻花痒 发表于 2024-7-22 02:32:02

二十年大数据到 AI,图灵奖得主眼中的数据库因果循环

最近,MIT 教授 Michael Stonebraker 和 CMU 教授 Andrew Pavlo (Andy) 教授联合发表了一篇数据库论文。Michael Stonebraker 80 高龄,是数据库行业唯一在世的图灵奖得主,Andy 则是业界少壮派里的最大 KOL。
https://img-blog.csdnimg.cn/2280afa2c39c4a668e7387736e75fbec.png
一老一少,当今数据库届最王炸的组合,互助写的论文标题是
https://img-blog.csdnimg.cn/918b565ec6b542f4b384b9e3dd835b57.png
作为业界顶流,当然是不会刷「An Empirical Comparison of xxx」的水文。不过 What Goes Around Comes Around 的标题也着实特殊,中文翻译过来是「种瓜得瓜,种豆得豆」,「因果报应」,而后面又跟了一个 Around。其实这是一篇续作,在差不多 20 年前,Stonebraker 教授和另一位教授,UC 伯克利的 Joseph M. Hellerstein 曾经合著了一篇
https://img-blog.csdnimg.cn/833c7feb745c484e91b2829e1c4609f9.png
而 Andy 其实也是 Stonebraker 教授那篇文章的粉丝。
https://img-blog.csdnimg.cn/0c98d82b5efa49dfa6c9bff0b05177e7.png
当年论文的因由是其时数据库界鼓起了一股反关系型,反 SQL 的海潮。而在两位教授眼里,其实是历史的倒退,于是忍不住写了一篇科普文,美意劝大家这些看着时髦的东西之前已经玩过一轮了。
https://img-blog.csdnimg.cn/5cb9f016220442a2ae7c6177deead99d.png
而这次论文的时间点也刚好,站在云和 AI 交叉点之间。下面做一些论文的摘录。
介绍

首先呼应了一下当年的论文,列出了数据库到 2005 年的演进史。
https://img-blog.csdnimg.cn/371aabf621244bc4861d7b034d07e6f6.png
然后列出了近 20 年的发展,分别从数据模型/查询语言(Data Models & Query Languages),以及系统架构(System Architectures) 两部分入手。
https://img-blog.csdnimg.cn/12474ec7bc9740418e8b091a426eafc1.png
https://img-blog.csdnimg.cn/3c02dcff1b434e8e9d067da7d96f90fc.png
数据模型和查询语言

https://img-blog.csdnimg.cn/54fdc23052e24d96aed3cae522042195.png
继续呼应当年的论文,毕竟证实当年的论文判定都没有错。NoSQL 只是一时狂热,当年的 NoSQL 要么都挂了,活下来的,也都老诚实实地加上了类 SQL 的语法。
https://img-blog.csdnimg.cn/66dae445e1764d7b9de36828730cb546.png
谈到被 AI 带起来的向量数据库,论文的观点是传统的关系型数据库和向量数据库,会和当年的 NoSQL 一样,双向奔赴。
系统架构

https://img-blog.csdnimg.cn/4d866993ed9347b0b7aa8dd9bf60298a.png
列存系统因为优越的性能颠覆了整个数据仓库。
https://img-blog.csdnimg.cn/cbcbff9767c4400ea26e8015b3bdd41a.png
云改变了整个数据库架构,也是所谓的云原生数据库。
https://i-blog.csdnimg.cn/direct/50dda88b42f84e7eb01156a6b4345f14.png
云模式也诞生了新的商业模式,以及开源厂商和云厂商间新的商业竞争。
https://img-blog.csdnimg.cn/50d4871ec1b2438b8c33ddcbd1837bfd.png
https://img-blog.csdnimg.cn/d40811d2ebb247eea9669b0923637515.png
数据湖从一个看似糟糕的主意,颠末各种中间件加持,变得可以担当了(数据量那么大,也没有办法)。
https://img-blog.csdnimg.cn/73d913dc73484580aeec01d302b4dc31.png
NewSQL 同时吸收传统关系型数据库和 NoSQL 的优点。
https://img-blog.csdnimg.cn/83467edbc24b440a974c0ebeb35fca38.png
硬件加快,无足轻重。
https://img-blog.csdnimg.cn/79a32e76abcf4a8d855a6e9cc9b8414e.png
区块链数据库,币圈交易所自己都不消。
教授的总结

https://img-blog.csdnimg.cn/4bd833c83fdd40dca3fdbfb9ba19a4cb.png
Oracle,MySQL,Mongo,流行难道是原罪?
https://img-blog.csdnimg.cn/c3ffea92603948fdbc80a96e01100d47.png
https://img-blog.csdnimg.cn/5067c70bb8274795904682fa120ceeb7.png
https://img-blog.csdnimg.cn/bbe1f91dc6814f1cab1bc6642316004e.png
小心大公司开源的数据库,人家只是为了提升,还请你们不要当真。
https://img-blog.csdnimg.cn/50e753de41f44a89803464735d7cd0ca.png
上手体验很紧张,瞧瞧人家 DuckDB。
https://img-blog.csdnimg.cn/39093a74d2324b78bba146596ad4d47c.png
https://img-blog.csdnimg.cn/67c44582796446749c9a22e4fd753751.png
ORM 是不错,但到头来 SQL 也还是逃不过。
https://img-blog.csdnimg.cn/6d9c85cba8874184b96dc26c8dc8e602.png
https://img-blog.csdnimg.cn/801da2afeeff45758ff450c2d98be8f9.png
数据库结合 AI,长期乐观,短期怎么交差?
个人点评

前后两篇 What Goes Around Comes Around 都很值得一读。我是在 2010 年前后读到了第一篇,由那篇论文才得以系统性地了解数据库的发展史。而最近的这篇,一方面有近 20 年纪据库的发展更新,一方面也有对第一篇里的复盘,所以包含了更多的商业洞见。历史对未来总是有鉴戒意义,好比对于向量数据库的展望,我们可以参考之前 NoSQL 数据库的发展。但未来又总是无法预测,纵然是环球最顶尖的教授,在当年的第一篇论文里,Open-Source 和 Cloud 两个词的出现次数均为 0。
https://img-blog.csdnimg.cn/fe6b10b8f8a54646b4fd19452d574bc2.png
https://img-blog.csdnimg.cn/0ab35732dc7641e28b8bb1ab2d3fde49.png
而 open-source 和 cloud 是近 20 年里,推动数据库行业进步最核心的两个因素。在新的这篇,open-source 和 cloud 分别出现了 17 和 42 次。
https://img-blog.csdnimg.cn/9189fcbde4cc4ad086b39e41d503804a.png
https://img-blog.csdnimg.cn/e4b3b5a8ff6a4fb59f59f161b60ec915.png
别的值得一提的,是在这次新的论文中,也提到了国内数据库厂商,向量数据库赛道的 Milvus 和 NewSQL 的 TiDB。
https://img-blog.csdnimg.cn/751cee55486a457ab7d6c3496a4c1ce5.png
https://img-blog.csdnimg.cn/236133058d8d4cf6995b2becd0764fdd.png
从大型机,小型机,到互联网,云计算,每一次信息行业的变革,数据库都不会缺席。当下的数据库虽然暂时被沉没在了 AI 的海潮中,但未来可期。毕竟当年我们只能看到 NoSQL,但也没想到后面更大的云和开源。
https://img-blog.csdnimg.cn/d11211cd4b024358bbcf901810a13667.png
希望 Stonebraker 老爷子保重身材,20 年后完成三部曲。
2005 What Goes Around Comes Around. Michael Stonebraker, Joseph M. Hellerstein
https://15721.courses.cs.cmu.edu/spring2020/papers/01-intro/whatgoesaround-stonebraker.pdf
2024 What Goes Around Comes Around… And Around… Michael Stonebraker, Andrew Pavlo
https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf
页: [1]
查看完整版本: 二十年大数据到 AI,图灵奖得主眼中的数据库因果循环