从互联网到云计算再到 AI 原生,百度智能云数据库的演进 ...

打印 上一主题 下一主题

主题 674|帖子 674|积分 2022

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费利用,欢迎参与!

1 数据库行业发展概述

如果说今年科技圈什么最火,我估计大家会绝不犹豫选择 ChatGPT。ChatGPT 是 2022 年 11 月 30 日由 OpenAI 发布的聊天应用。它创造了有史以来用户增长最快的记载:自 11 月 30 日发布起,5 天就拥有了 100 万活跃用户,两个月就达到了一亿用户。对比其他热门应用,同样达到一亿用户量级,TikTok 花了九个月,而像 Instagram ,Whatsapp 等应用则超过了两年时间。
ChatGPT 的爆火,刹时点燃了整个 AIGC 赛道。最关键的原因在于,它让大家看到了弱人工智能向能人工智能的超过式发展。英伟达 CEO 黄仁勋对此评价:ChatGPT 相当于 AI 界的 iPhone 时刻。
现在业界统一的共识是,AIGC 会改变 IT 行业的方方面面。那 AIGC 对数据库会带来哪些变革,AIGC 和数据库又会碰撞出哪些火花,这是一个值得我们去思考和回答的问题。


在回答 AIGC 对数据库的变革和影响之前,让我们先回顾下数据库发展汗青。它可以分为六个阶段。
第一阶段是上世纪五十年代。这个时间数据库还在雏形阶段,以层状数据库和网状数据库为主,基础设施以大型机为主,主要用于国防和科学研究。
第二阶段是上世纪七十年代。关系型数据库出现,硬件也酿成了小型机,这也奠基了数据库发展的方向。主要应用在金融,交通等关键行业。这时的代表数据库是 Oracle 和 DB2 等。
第三阶段是上世纪九十年代。PC 机已经得到了普及,数据库除了关系型数据库,也有了 PC 单机数据库。为解决企业 BI 应用诉求,数仓开始出现。数据库的应用也更多样化起来,进一步应用到企业 BI、个人办公、娱乐等场景。
第四阶段是本世纪的前十年。随着互联网开始繁荣,数据处理的需求逐渐增加,开始出现企业数据中央。业务也酿成了媒体、搜刮、电子商务、交际等互联网业务。由于传统数据库如 Oracle 由于价格较贵,互联网厂商大量利用开源数据库如MySQL、Redis、MongoDB 等。整个开源数据库生态开始逐渐繁荣。数据库的种类,厂家也逐渐变多。
第五阶段就是我们今天所处的云计算时代。典范应用包括新媒体、各种移动 APP、物联网、娱乐、短视频等。典范的数据库有 RDS、Aurora 等云数据库,以及 Oceanbase、CockroachDB 等分布式数据库。百度也有对应的产品,云原生数据库 GaiaDB 以及我们自研的缓存类数据库 PegaDB 等。
第六个阶段是自 2023 年开始的 AI 时代。底层基础设施酿成了 GPU 和 AI 能力。应用也酿成了 AI 原生应用,如海外比较火的 Jasper、Midjourney,微软的 Copilot 等。在数据库行业我们看到至少两个方向,一个是 AI4DB,其中包括阿里的 DAS、百度的 DSC 等,主要是通过 AI 的能力去改进原有数据库的自动化能力。别的一个方向就是 DB4AI,现在主要是向量数据库。向量数据库在解决大模型幻觉等方面,有非常不错的效果,是一个有潜力的细分赛道,头部公司估值已经达到 10 亿美元。
以上就是数据库 70 年波澜壮阔的发展史。我们可以看到,每隔一段时间数据库就会在基础设施、应用场景、以及数据库本身,都有不断地变更和创新。


上面我们简朴回顾了数据库发展的六个阶段。在这个过程中,我们还可以以 2000年做分界线。在 2000 年前,国内数据库根本上被 Oracle 等海外数据库主导。而从 2000 年之后,随着互联网业务的发展,国内多个互联网厂商如阿里、腾讯、百度便开始尝试利用开源数据库,实现了从最早的运维、到提交 patch、再到最后完全自研数据库的超过式发展。
这背后从量变到质变的过程是一个典范基础软件发展过程。一个基础软件真正得到长足发展,须要一大批高素质的技能职员,也须要深度场景的利用才气不断美满产品。别的丰富的场景和不断发展的业务,也能长期养活这批技能职员,进而形成正循环。所以说数据库的发展依靠于技能和业务的双轮驱动。从 2000 年开始,我们看到三波海潮——互联网,云计算和 AI 原生。我们接下来会分别来讲一下每一波海潮为数据库行业带来的创新和变革,以及百度智能云数据库在这个过程中的关键技能和代表产品。


百度智能云数据库发展史

互联网业务特点是赢家通吃,所以互联网业务用户数规模通常比较大。因此天然要求数据库支持大规模、高可用、高可靠性、低成本以及高性能,这对数据库提出了非常大的挑战。
在第一波互联网业务的发展中,业务的挑战催熟了一系列开源数据库如 MySQL、Redis、MongoDB,又从中孵化出了分布式数据库。


接下来我们来看下百度在互联网时代的数据库发展历程,这里有几个关键节点:
第一个是自 2005 年开始利用 MySQL 数据库,这也是国内最早利用 MySQL 的企业之一。第二个是 2014 年百度推出公有云服务,百度数据库的能力通过百度智能云开始赋能给外部企业。第三个是 2020 年发布了云原生数据库 GaiaDB。百度也成为了国内少数几个具备自研云原生数据库云厂商之一。截至现在,百度积聚了 18 年的数据库研发经验,承载着内部 PB 级数据。10 万+ 的节点至今零故障零丧失。通过百度智能云输出的一站式产品,覆盖 RDS、NoSQL、OLAP、工具等范畴,同时具备公共云、私有云、边沿云等软件版本多形态。


前面我们提到了互联网的一大特点,就是规模大。单点肯定处理不了,所以须要引入分布式技能,也催生了分布式数据库的诞生。
百度在该范畴也有非常成熟的技能,讲两个实际的案例:第一个是百度网盘。百度网盘有 8 亿用户,整个数据库中单表最大超过 10 万亿条记载。整体集群超过 3000 台服务器,是国内最大的数据库集群之一。第二个是金融行业。大家都知道金融行业对一致性、数据准确性有非常高的要求。度小满金融有 3 亿用户,年度结算金额超过万亿,其底层利用的就是百度智能云分布式数据库 GaiaDB-X。尤其值得一提的是在 2019 年春晚红包业务中,整体交易的峰值是 12 万笔/秒。数据库的分布式能力、性能、一致性、准确性都得到了充实验证。除了度小满,百度智能云的数据库还在多家国有大行、股份制银行和城商行中稳固运行。


互联网业务除了规模外,对性能、并发等也提出了很高的要求,因此诞生了一系列 NoSQL 数据库。差异的 NoSQL 数据库从差异层面解决互联网垂直场景的问题,今天我们讲其中的代表 Redis。
百度智能云的 Redis服务履历十几年的技能积聚和业务打磨。从规模上来看,节点规模超过 30w,其中单集群最大规模节点数达到 2700。从业务支持上看,百度 Redis 覆盖支撑了百度内部全场景业务,其中包括搜刮广告、手百、舆图、小度等一系列亿级用户体量的产品,为业务提供 4 个 9 以上高可用性以及微秒级哀求时延服务,始终为客户提供稳固、高效、弹性可扩展的智能缓存服务。


Redis直接利用内存,但内存带来高性能的同时成本是比较贵的。因此一款能兼顾性能和成本的 Redis 产品是客户迫切须要的。考虑到业务中大量的数据是可以根据场景分出冷热的。比如视频直播、新闻/内容平台、电商场景中,随着时间的推移,数据的价值和利用频率都在下降。所以可以将部分数据自动迁徙到磁盘中,从而降低存储的整体成本。


为相识决性能和成本的平衡问题,百度智能云自研了 PegaDB。PegaDB 是在开源基础上自研的容量型 Redis 产品,相比内存型产品最多节省超过 90% 的存储成本。在成本下降的同时,PegaDB 也兼容了 Redis 丰富的数据类型和下令,让用户做到无缝迁徙,兼顾了用户体验和性能优势。除此之外,PegaDB 还有两个杀手锏功能:一是支持在线弹性伸缩,单个集群最大规模可达 PB 级别。对用户来说不用估计利用量,只要傻瓜式即开即用即可。第二个是支持 CRDT 同步的组件,支持异地多活和多节点同时访问、自动进行冲突合并等功能。这就让客户专注于实现业务逻辑,其他的都交给底层的数据库,完全不用费心可用性问题。



随着云业务的诞生,让数据库的价值进一步放大。为了赋能千行百业,全托管等形态的 RDS 顺遂成章的诞生了。它解决了客户最直接的安装、运维、管理等问题,因此全托管的 RDS 就逐渐推广开来。
但单体 RDS 通常有比较显着上限,在一些对性能、成本、弹性有一定要求的复杂业务中,就须要一个更强大的数据库来解决这些问题。因此,存算分离的云原生数据库就自然而然诞生了。百度智能云的云原生数据库 GaiaDB 是其中的代表之一。




RDS全托管的产品形态代表了云计算从软件到服务的理念变化。云原生数据库极大地进步了 MySQL 数据库的上限能力,是云数据库划代的产品。
云原生数据库最早的产品是 AWS 的 Aurora。AWS Aurora 提出来的 The log is the database 的理念,通过把大量的日记操作放到后台异步处理,实现了存储独立扩展和存储计算分离,从而解决了 MySQL 数据库单库的数据量不能太大的最大痛点。
而云原生数据库在存储层面实现了扩展的同时,又保留了计算层面的不变和兼容。这种兼容 + 扩展的能力,受到了客户的极大欢迎,一下子就让云原生数据库成为各个厂商的发展重点。云数据库技能也标志着云厂商的产品能力开始和传统数据库厂商、开源产品开始拉开差距。



百度智能云的 GaiaDB 在 2020 年初次推出,除了具备云数据库的长处之外,GaiaDB 还有许多独特的技能能力,接下来我来分享其中 5 个代表能力:
第一个是共识协议。一样平常利用 Raft/Paxos 分布式协议的数据库,单次 I/O 须要至少两次网络来回,而且无法并行。这也就导致了分布式数据库时延很高,长尾问题更突出。
针对这个问题 GaiaDB 创新采用了 Raft 和 Quroum 联合的协议。其中 Raft 负责控制流,Quorum 负责数据流,进而减少网络来回。同时焦点链路上的同步 I/O 酿成异步 I/O,在保证分布式一致性的条件下,吞吐提升了 40%,时延降低了 30%。
第二个是高性能智能网络。存算分离在带来分布式和弹性的同时,也引入了网络 I/O 的斲丧,因此网络 I/O 的性能和效率直接影响整个系统的表现。GaiaDB 采用高性能智能网络,这个网络有几个关键技能能力:


  • 网络超时重定向机制。当远程 I/O 超时,会自动尝试其他副本,从而抑制单节点长尾问题。
  • 网络支持用户态协议。该协议减少了内核态 TCP 和用户态 TCP 的数据库拷贝。通过对网络的优化,平均时延从毫秒级别降低到微秒级别,提升 20 倍以上。
第三个是提供了三副本对等存储能力。由于采用了 Quorum 分布式共识协议,相比传统的 Raft 模型,每个节点都可以独立提供读写服务,没有单点故障。
第四个是多地多活。GaiaDB 是现在业界唯一可以做到多地多活的云原生数据库​​​​​​​是。在多地部署的时间,GaiaDB 模块的自顺应就近访问计谋可以感知元数据的变革,并根据这些变革及时切换访问蹊径。这种计谋可以有效地应对各种故障和非常情况,确保数据的可靠性和可用性。
第五个是利用通用硬件,对硬件要求低。GaiaDB 生于云,但同时 GaiaDB 的架构对硬件的依靠度非常低。我们和许多厂商利用高性能硬件的思路差异,我们认为云的价值是普惠,所以一定要让通用服务器能发挥专业数据库的能力。因此,差异于许多云原生数据库须要依靠底层高性能的硬件,GaiaDB 从计划初就对峙利用通用服务器。因此在私有云场景下,三个节点就可以进行部署,让我们的客户可以低价享受到云上云下一套架构。



接下来我们来看一个 GaiaDB的实际案例——百度舆图。
百度舆图是国民级别应用,日活用户 5.6 亿,PB 级数据。这对数据库也提出了如下的挑战:


  • 为了保证高可用,须要多地多活的能力。
  • 节假日舆图搜刮,导航流量会出现十倍的上涨。这就要求在节假日须要非常顺滑的扩缩容的能力。
大规模数据量、异地多活、弹性扩缩容要求,这些要求对数据库是极大的考验。在实际利用过程中,GaiaDB提供 4 个 9 的可用性,RTO 切换小于 3s,RPO=0,整体 QPS 超过百万级别,给业务实现超过 60% 的资源成本节省。总的来说,GaiaDB成功资助百度舆图实现了极致的弹性和成本。


云上数据库和线下数据库相比,一个较大差异就是生态能力强。相比传统线下软件只有 1~2 款产品,线上有多种数据库与多种利用情况,因此数据库矩阵更丰富,这带来了对数据库工具的诉求。
百度智能云有丰富的数据库工具,包括数据传输 DTS、数据库智能驾驶舱 DSC 等产品。我们先讲其中的代表 DTS。百度智能云的 DTS 采取了中间抽象的数据格式,通过中间格式的翻译和转换,可以轻松做到异构迁徙能力。同时 DTS 在吞吐上可以做到每秒 15 万行,延迟做到毫秒级别,根本等于网络的延迟的性能,让客户可以放心利用 DTS 来做数据库的迁徙和同步。


3 AI 原生时代的百度智能云数据库

在 AI 原生时代,数据库和 AI 的联合主要有 DB4AI 和 AI4DB。
首先是 AI4DB,就是利用 AI 技能赋能数据库。常见场景有智能运维、智能客服、参数优化等等,刚刚提到的百度智能驾驶舱就是该范畴的代表。别的一个方向是 DB4AI,通过数据库赋能 AI 产品。当前最火的就是向量数据库。向量数据库二次的翻红主要原因是向量数据库在解决大模型幻觉、知识更新不及时有很大作用,让向量数据库的想象空间一下子变大了。


AI4DB 在工业界不绝有研究。相比传统机器学习算法,大模型让 AI4DB 真正走进实用时代。利用大模型的能力,百度智能云数据库发布新服务:数据库智能驾驶舱。
数据库智能驾驶舱利用最新的大模型能力,实现数据库智能化的洞察、评估和优化。根据我们的实际测试效果,优化效果非常显著:


  • 数据库故障洞察方面,相比传统的人工定位提升 80%。
  • 领先的智能评估系统,相比传统的方法提前一个月发现数据库的容量瓶颈,规避相应的风险。
  • AI 驱动的 SQL 优化方面,可以带来 40% 以上的提升。
相比传统基于规则的算法,大模型带来了更好的优化效果和更少的开发时间。大模型带来的切实提升让 AI4DB 走向真正的实用时代,也让数据库自感知、自修复、自优化、自运维成为现实。


下面我们来看下数据库智能驾驶舱内置的一个能力——智能问答。
这个功能可以资助用户诊断产品问题并回答各种疑问,降低人工投入。这内里用到了大模型通用知识的能力,同时也利用 RAG 技能,把云产品文档、数据库的官方文档、内部积聚的知识库进行向量化并存在向量数据库中。
在查询的时间,联合大模型和向量数据库的能力,可以给出相当准确有效的答案。现在数据库智能驾驶舱经过验证,对汗青客户工单中真实问题进行回答然后由人工进行打分,整体复兴平均超过 4 分,根本可以媲美普通售后工程师的程度。



接下来我们实际来看下智能问答的一个 demo。
左边的例子是询问知识库内里已有的例子,比如怎么购买,怎么实现一个读写分离的配置等。智能驾驶舱都总结得比较好,回答也非常准确。右边的例子是询问知识库中没有的例子。我们可以发现,智能驾驶舱利用大模型的能力,可以闻一知十,把解决问题的步调给出来。我们人工去检查也会发现,这个步调照旧相对比较合理的。所以现在智能驾驶舱的智能问答可以做到:有资料的问题准确回答,无资料的问题也可以给出相对清晰的解法。百度智能云内部已上线了该功能,大大节省了人力。


DB4AI 的典范代表就是向量数据库。向量检索并不是一个新技能,2017年 Meta 就开源了相似度检索库 FAISS,算是向量化检索的开山鼻祖。
传统数据库解决的是布局化数据的存储和检索,非布局化数据须要先用 AI 算法 Embedding 成向量数据。须要查找的时间,把须要查找的数据的向量带过来,然后在库内里进行相似度检索。
而向量数据库焦点能力就是支持向量数据存储,以及支持差异的查找算法和索引实现相识度查找。当前业界有两种差异的实现方式,一种是在传统数据库中增加插件大概功能支持向量的查找,比如 PG,Redis 都支持向量索引。这种实现相对来说容易一些,但同时性价比会差一些,通常会占用更多内存。别的一种是专业的向量数据库,专门为向量重新计划的存储和索引布局,能实现更高的性价比和弹性。
传统应用也有不少向量场景。典范场景有安全都会视频检索、电商范畴以图搜图等。由于传统场景比较垂直,因此不绝没有一个大的向量数据库,更多的是耦合在业务系统中。而在大模型时代,万物皆可向量化。而且当前大模型主要问题有知识更新不及时、精确性问题、数据权限管理等问题,都须要向量数据库来补充。向量数据库也因此成为大模型的标配,也在大模型时代二次翻红。
百度智能云自研的专业向量数据库现在在内测阶段,根据我们内部实际测算,在成本、规模、高性能算法、内置 Embedding 模型、向量 + 标量的联合查询方面,相比业界有很大的提升。


前面我们先容了关键的产品,最后简朴回顾一下百度智能云产品矩阵。
百度智能云数据库完整支持 RDS、NoSQL、云原生数据库,OLAP 等产品。相比业界其他云厂商,百度智能云数据库有两个显著特点:


  • 百度智能云的数据库产品可以做到一套架构,云上云下客户享受划一的产品能力。
  • 支持国内最全的产品形态,包括公共云、私有云、边沿节点、LCC 等多种形态,可以服务各类诉求的客户。


前面我们盘点了数据库在互联网、云计算,AI 原生 3 个阶段的发展。除了技能之外,我们认为云数据库将来还要对峙两个重要的理念。
第一个是体验优先。一个好的数据库不能只是性能、成本这些方面。体验好的产品,可以让用户做到自服务。体验优先这一点在海外 SaaS 产品中表现得更为显着。在国内,这一理念也逐渐取得从业者的承认。因此,在过去的半年内里,我们从文档、控制台、产品功能各个层面进行了深度优化:


  • 文档:文档是用户利用和明白产品的重中之重,因此我们做了包括优化布局、补充用户场景、革新细小的优化点在内的大量工作,目的就是让用户在利用过程中可以更方便找到自己所须要的内容。
  • 控制台:在控制台优化上,我们优化了整体布局,让用户可以更简朴找到想用的功能,总共优化点超过 100 处,让用户更容易上手。
  • 产品功能:我们针对数据库的产品功能系统性安排测试定期的盲测、新员工利用等,仅仅上半年就优化了 50+ 个突出的易用性问题。
我们对体验的明白就是从用户视角入手、对峙细节、系统性的进行优化,只有通过这种深度,全方位的连续改进,才气把体验做到实处。
第二个是开放生态。丰富的生态是吸引客户、解决客户多样诉求的关键。也只有开放的生态,才气让更多的厂商一起服务好客户。
生态方面,百度承袭更开放的心态和第三方厂商合作。上半年我们和工具范畴知名创业公司 NineData 正式合作,接下来会立刻官宣别的一个合作厂商。
相比其他厂商,我们合作的过程也不只是简朴的云市场合作。我们会和合作伙伴一起进行产品共建、优先推荐符合客户给合作伙伴、首页曝光和联合的品牌活动,增加合作方的知名度。
通过一系列的本领和步伐,我们希望给到合作伙伴的是切实效果。百度智能云合作的理念就是更开放,让利合作伙伴。欢迎更多的合作伙伴和百度联系,一起服务好我们的客户。
总的来说,一个体验优先,生态开放的云,一定是客户最须要的云,也是朴拙服务客户的云。


4 数据库将来的趋势展望

站在当前看将来,数据库当前有四个关键发展趋势


  • AI Native。像大家比较头疼的 Oracle 转 MySQL 大概 PG,随着 AI 改写的到来,整个过程预计会变得很简朴。
  • Serverless。已经是海外云数据库的默认选项了,预计 1~2 年之后,serverless 就会在国内变得更普及。各个厂商也都会推出 serverless 数据库产品,这也是将来云产品的终极形态。
  • 内置 HTAP。HTAP 前段时间很火,不过我们判断 HTAP 很难成为一个单独的赛道,更多的是会成为各个 TP 数据库的内置能力。
  • 湖仓一体。湖仓一体预计会成为数据堆栈的主要形态,不支持湖的数仓可能会很难生存,只有支持湖才气解决更多的数据问题,才气降低存储的成本。
技能和产业发展都很快,百度智能云数据库连续跟进最新的技能趋势,用优质的产品和朴拙的服务回报我们的客户。



欢迎大家相识数据库产品

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

缠丝猫

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表