信创、湖仓一体化、AI+DB,2024年数据库&湖仓发展总结与展望 ...

石小疯  金牌会员 | 2025-2-20 01:48:17 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 887|帖子 887|积分 2661

作者:吴炳锡
  时光荏苒,转眼间 2025 年已然来临,这又是我从传统 OLTP 数据库领域转向云原生湖仓 Databend 的第三个年头,这段转变恰如一场快速的路程,让我深感这一年如飞箭般迅速。展望未来,我意识到,只管数据库行业正面临明显的瓶颈,湖仓领域却蕴藏着无尽的潜力,而 AI 的崛起将进一步提高从业门槛。以下,我将从四个方面与各人分享我对 2024 年数据库&湖仓的回顾与思索:1. 数据库的发展现状 2. 湖仓现状 3. 行业观察 4. 未来思索。
一、数据库的发展现状


  • 数据库平台化趋势
在互联网行业,数据库的应用仍以 MySQL 为主。大部门公司已经实现了数据库的平台化或是云化,很多企业乃至已经拥有上万、10万+级别的实例规模。在这种公司中,数据库技能已经完全平台化, 数据库大多处于一个微服务层的定位。他们早已完成数据库根本运维技能的积累,基于平台化运维实现了数据库自助上线、自动备份和半自动恢复,构建了数据零信任的完备体系。
早期,这类公司都有对应的数据库内核研发团队,从2024年起,对内部数据库内核团队减员增效成为一种趋势。

  • 信创配景下的自主可控
国内高举“信创”这杆大旗,推动全部 IT 建立从追求“可用性,高性能”转向了“自主可控”。 在此配景下,这个赛道上更多产物以 HTAP(Second Engine) 为主要方向,主攻超融合数据,专注替换 Oracle , SQL Server, MySQL 等产物的存量市场,且各产业物都在协议兼容上重度投入。比方:


  • Oceanbase 兼容 Oracle, MySQL;
  • 达梦兼容 Oracle、SQL Server、MySQL、Teradata 等;
  • 金仓兼容 Oracle、MySQL、PostgreSQL;
  • TiDB 兼容 MySQL。
此外,一些后起之秀也在追赶中,一些产物基于 PG 或 MySQL 前端套了一个 Proxy 实现了 Oracle、SQL Server 协议的接入,也得到了用户的认可。 这波国产化+信创从去年常听到的是“又不是不能用”,到本日“有些产物真的不好用”,市场的选择逐步显现,“当大潮退去,才知道谁在裸泳”。
从整体看,完全自研加上有互联网基因的数据库,在性能和好用方面都占优; 偏传统的数据库在兼容性上有着绝对上风。目前,信创市场还是一个销售为王的时代,预计在 2025 年,信创数据库的“圈地运动”或将进入尾声。但中国的信创数据库少年们仍需加油,未来另有出海这片广阔天地。

  • AI 对数据库的赋能
目前,AI 在数据库行业的应用,尤其是在比力成熟的近似度搜刮和知识库整合方面,原创数据库产物加此类功能比力轻易。比方,Databend 的 Bohu Tang 在一周内增长了近似度搜刮能力, PingCAP 的黄东旭在会议上分享 TiDB 也在 2 周内完成了相关功能的实现。这种只需少量时间投入,就能让数据库或湖仓产物拥有一个向量检索能力,可以让产物快速迭代出 AI 能力,是一种非常值得的尝试。
二、湖仓方向


  • Hadoop 的退场与湖仓一体化的崛起
Hadoop 时代正在快速退场,正如人们对“固定电话时代”的见解:虽然还能用,但如果坏了就不值得再修,有太多好用的产物可以替换它。随着 CloudOS 被越来越多人的接受,湖仓一体化时代已经到来。越来越多的产物宣称能够替换 Snowflake,其中以 Databricks、Databend 为代表的新兴产物,通过技能创新和高效的操纵方式,正在重塑湖仓市场的格局。
2024 年,你大概会看到一个现象,任何一个湖仓产物都在宣称本身能够替换 Snowflake。然而,很多人对 Snowflake 仍停留在“听说过”的阶段 ,还不真正相识 Snowflake 。
互联网公司传统的湖仓平台已经从 Hadoop 转向了“Spark + Icberg(Hudi) + Painmon + Trino + kafka + Zookeeper + 元数据服务 + MySQL + 任务调度平台 ... ”。 大数据从业人员也分为: 根本架构平台(Java)工程师、数据加载洗濯预备工程师(Spark 任务, Data X 任务, Java, Python)、数据利用工程师。其中,大数据工程师报告时的 PPT 最丰富,架构最丰富,但也是报警及故障最多的部门。
相比这套复杂的技能栈,基于 Snowflake 的湖仓平台只需“ Snowflake + 数据利用工程师”, 就 OK 了。 No Java, No Python,全部统统都基于 SQL 操纵,方便快捷。
Databend 产物基于 Rust 开发,从 0 到 1,以 Snowflake 为蓝本实现了一个开源的 Snowflake 替换方案,目前也是唯一个可以私有化摆设的 Snowflake 替换产物。2024 年,该产物已经在海外金融和保险行业实现商用私有化摆设。

  • 湖仓一体化未来思路
目前来看,湖仓一体化在未来的整体思路是:

  • 实现数据秒级接入可见,拥有强大的吞吐能力,支持每秒 500万行/S 以上的数据加载及卸载能力;
  • 基于 SQL 操纵;
  • 夸大 NoETL 特性;
  • 支持离线盘算和及时挖掘, 平台稳定性越来越重要;
  • 数据少搬家或是不搬家,提供数据集市功能;
  • 支持事件性操纵,确保数据完备性和一致性;
  • 支持结构化、半结构、非结构化、空间类数据融合;
  • 易管理,易运维;
  • 低成本,支持云上按需付费;
  • 提供多 IDC 容灾能力。
湖仓创业方向众多,比方:


  • 引擎方向: Paimon
  • 元数据方向: Gravitino, 成名公司: Illumex
  • 数据同一访问层: OpenDAL
湖仓方向需求非常复杂, 这个方向机遇也很多,需要考虑清楚立足点是云上或是云下,这两个产物方向区别比力大。因为我个人也在湖仓方向创业,就不对偕行的产物进行过多评价,希望有兴趣的朋友或在湖仓方向先辈可以加我微信: 82565387 我来拉个群,各人私下里先交流。
三、行业观察


  • 技能会议的转型
2024 年,DTCC 会议中纯数据库技能分享的吸引力徐徐下降,已经无法吸引到太多听众。但观众对信创、AI 和数据应用、数据管理、湖仓方向的热情还黑白常高的。
我的感觉是大学生如今专业度也提高了,很多知识在学校里就完成了积累,行业内的数据库会议如果再讲开发规范及基本架构已经无法满足需求。
国内如 Qcon 等技能会议也都开始往 AI 方向转变。这也给了会议主办方带来一个新的思索: 技能会议毕竟能为到场者提供什么价值?

  • AI 与数据的交汇
AI 方向有着绝对的诱惑,文生图、文生视频、语音模拟都有着非常成熟的应用; 着实反观: 大模子就是一个强大的数据库,有着海量的数据和内容可供查询。 如果想在 AI 和数据方向搞创业,参考 Illumex 用心给大模子提供数据,应该还是一个不错的方向。
此外,AI 的成熟也让开导式 SQL 更快融入工作中, 对于数据库和分析型湖仓产物也有了更高的要求。

  • “插管吸血”的云厂家
各人也许总会讨论为什么原来有那么多优秀的开源产物,但如今感觉却越来越少了。 着实并也不少,大概是各人宣传方面低调了很多。因为原来的高调宣传反而都给云厂家做了嫁衣。比方: 当年 Hadoop 火的时候 AWS 保举 EMR, 基于 Presto 的 Athena 以及今年的 S3 Table , 阿里云的 MySQL RDS 基本每个产物都可以做到上亿,乃至更多的收入,但这些产物对开源社区可以说基本没有任何帮助,修正的 bug 和优化的性能每每也不会反馈到社区,但看到开源社区好的性能每每会较快速度归并过来。很多优秀的开源产物快被这些云厂商“吸干”,估计后面也只能逐步自行搞了。
优秀的开源产物如今比力难吸引贡献者,但很轻易吸引云厂商的偕行来 fork 或是抄你一个产物。如何与云厂商差异共存,通常成为创业者第一时间要想好的事。
四、未来的思索


  • 根本架构的变化
根本架构的变化每每蕴藏着无限商机和工作机遇,尤其在当前技能快速发展的配景下,这一趋势愈发明显:


  • 信创需求驱动的复杂性提升

    •   随着信创要求的深入,大量信创服务和操纵体系融入私有化情况,导致企业内部引入“赛马机制”,带来了大量的异构机型及操纵体系共存,将 IT 建立带入了一个新的难度。 这些企业每每是更偏统业务模子的数据库或是湖仓产物的天下,未来必然面临下一步的平台化或是私有云的进一步转型。同样的,传统信创数据库也要面临从“能用到好用”的挑战。

  • 云端轻资源化的崛起

    •   另一类企业则通过云根本架构将创业轻资源化。在云上, K8s 已经成为新的操纵体系, 对象存储就替换了文件存储,在这一根本架构的厘革中, Databend 捐赠给 Apache 的 OpenDAL 项目已经被多家数据公司利用。如果你是一个面向云端的架构,或是你将来想要把数据及湖仓产物摆设在云上和云厂家分一杯羹,就不要犹豫,需要认真思索如何把数据库跑在 K8s + 对象存储之上。以下是一些成功的产物:
    • OLTP

      • Neon
      • TiDB Cloud Servless

    • 湖仓产物:

      • Snowflake (闭源产物)
      • Spark + Iceberg
      • Databend


  • 通信协议的更新

    •   TCP/IP 协议在数据库和湖仓产物中已经被视为效率的桎梏,特殊是随着 AI 的融入,对更快的通信有着迫切的需求。 以太网 25GB 已成为新一代设备的标配, RDMA 通信在数据库和湖仓产物中大量利用,多家云厂商对外宣传在做新的通信协议。预计 2025 年,我们将看到更多关于新通信协议的技能探索与实践。
    •   在 CloudOS 配景下,未来需要更多高性能、低成本且能充分利用 CloudOS 资源和便利的数据库和湖仓。


  • 数据库与湖仓产物未来的变化


  • 专业化的内核开发与用户融合

    •   随着大量更加专业的内核开发人员,及数据利用者进入, 数据库和湖仓产物进入更加专业的阶段。中国大量的开源项目也已成为全球行业认可的项目。这些变化吸引了大批专业人士融入,将进一步推动数据库和湖仓产物的快速发展。

  • “快”不再是唯一尺度

    •   从产物体验上看,“快”已经不再是数据库和湖仓产物唯一的选择尺度。因为总是有比你更快的,随着硬件发展这个现象将越来越普遍。 从用户侧看,在产物性能可以到达用户要求后,用户会更在意产物的利用和运维体验,包括是否能更加简朴利用,更轻易运维或是无需运维。

  • 稳定性还是最大挑战

    •   2025 年,产物稳定还是数据库和湖仓产物最大的挑战。 在功能飞速迭代的同时,过于复杂的“瑞士军刀”模式,大概会带来产物的高故障率。比方一个崩溃需要半个小时才能恢复,乃至停电后无人能把服务启动起来。此类问题亟需通过产物简化来真正办理。在这一方面,Rust 语言有着天然上风,将在未来的数据库和湖仓开发中扮演重要脚色。


  • 数据工作者的职业转型
信创自主可控和国际化融合进程加快了数据工作者的脚色变化:


  • 职业路径的多样化

    •   一类是越来越多的 DBA 进入数据库公司或乙方担任技能专家; 另一类是投身于国内业务/产物的快速出海。有一些华人乃至在海外创业,国内招聘技能人员。国内的技能人员专业能力都不错,DBA 出海也成为了热门。在新加坡等地区,一些海外公司也会在国内招聘人员。

  • 潜在危机:云端 RDS 的挑战

    •   云产物的普及让 DBA 曾经担忧失业,虽然云厂商初期对此否认,但现状表明,RDS 产物确实对 DBA 岗位产生了冲击。RDS 整合了内核和 DB 运维团队的气力,个人专业技能难以对抗团队协作的效能。

  我个人从 OLTP 的 DBA 切换到湖仓方向,这几年也在专注分析和学习 Snowflake,以及从 Databend 和 Snowflake 的真实用户里看,给大数据工作者提供一些发起参考。


  • 大数据与湖仓领域的三类职业
目前来看,大数据及湖仓领域的工作者可以为分以下三类:

  • 根本架构开发工程师  主要从事 ****HDFS、Spark 、EMR 开发类的工程师。这类工程师的黄金时代应该是阿里2010 年左右大力搞开源的时代,后续这波人有很多出国或是去了其它公司做了技能负责人。 这波人目前也比力伤害,就如同互联网公司养的数据库内核团队对公司产出的价值有限。而且在一个企业内很轻易出现对于开源产物 Follow 不够全面造成大的故障。这类人专业度很高,最好的出路还是需要早日融入专业的产物中。
  • 数据搬运工  负责利用 Spark , DataX, ETL 工具把数据搬来搬去,天天面临上万或是 10 万+的任务运行。数据查对,数据重新天生占了最大量的工作。 这类工作如今已经有很多专业的产物取代,参考上面提到的 RDS 干掉 DBA。 你的偕行有专家团队时会干得更加专业。而且在 Snowflake 和 Databend 中更加夸大 ELT 或 NoETL 的方式,也降低了这一岗位的需求。
  • 数据分析 工程师  贴近业务的高价值岗位,工作内容的上下限较高,短期内难以完全被替换。但AI的发展对这类岗位提出了更高的要求,数据分析工程师需要尽快拥抱AI,提升竞争力。
总结

2024年,数据库与湖仓领域面临着巨大机遇与挑战。 信创自主可控已成基调,2025年将会加快这个市场的格局演变; AI 的势不可挡则蕴含了未来无限大概,要求从业者结合行业需求,最大化发挥 AI 的价值; 湖仓一体时代已经到来,使高性能、易用性、稳定性和低成本的产物成为未来发展的关键词;此外,出海正成为国产创业公司生存和发展的必经之路。
展望未来,竞争的核心不仅仅依赖于技能的速度和性能,更在于如何为用户提供更便捷、更稳定的办理方案。我们应以开放的心态,迎接 AI 和信创带来的新厘革,努力开辟更广阔的市场空间。让我们共同携手,迎接未来的挑战,以创新和互助驱动行业的进步与繁荣。
关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做及时分析的新式数仓。期待您的关注,一起探索云原生数仓办理方案,打造新一代开源 Data Cloud。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

石小疯

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表