东湖之滨 发表于 2024-6-9 13:25:02

AI 原生期间的云盘算

本文整理自2023年 12 月 20 日举行的「2023 百度云智大会·智算大会」主论坛,百度副总裁谢广军的主题演讲《AI 原生期间的云盘算》。
(视频回放链接:https://cloud.baidu.com/summit/aicomputing_2023/index.html)
大模型的到来,使得 AI 原生应用大量爆发。
这对云盘算提出了全新的要求。我们需要性能更强、范例更丰富的盘算产品,分身各类数据和应用要求的存储系统,满足全场景覆盖的服务交付方式,以及可以或许利用大模型提升业务效率的应用开发平台。
为了更好地满足 AI 原生应用爆发带来的挑战,我们重构了 AI 原生云。
https://img-blog.csdnimg.cn/img_convert/0d1c242aa78a5145779c48334f5cdacb.png
这是百度智能云的 AI 原生云的全景图。
从下至上,包括了覆盖全国的数据中央,适用于各种场景的云底子办法,全栈融合的智算底子办法,以及在这些办法构建之上应用开发平台。
接下来,我将具体介绍这张全景图中的产品的最新进展。
https://img-blog.csdnimg.cn/img_convert/539f5d410e9a402a9dde7474a9f7c464.png
后续的介绍内容,我将会按照通用盘算、智能盘算、数据库和大数据、分布式云、应用开发平台等 5 部分依次展开。
https://img-blog.csdnimg.cn/img_convert/628e5365b7be28c61622deee6b9cf31c.png
云盘算服务终极都是围绕盘算展开,云服务器是所有盘算实现的紧张载体。百度太行·盘算本年全新推出了多款云服务器实例。
在通用算力方面,发布第 7 代云服务器实例 G7,支持新一代 Intel EMR 处理处罚器,实例的盘算和网络规格全面升级,综合性能对比上一代提高 10%。
在 AI 算力方面,发布 2 款国产 AI 算力实例。其中,新一代昆仑芯 R300 弹性裸金属,加强了显存规格与 AI 加速处理处罚器互联通信性能,对比当前主流推理加速卡,在大模型推理场景综合性能可提升达 50%。基于升腾 910B 的弹性高性能盘算实例,可支持单实例 3.2T 的高性能网络互联,在大模型练习场景提升可达 40%。
以上这 3 款云服务器实例,都支持第二代百度太行 DPU 网卡,可以提供更高规格的网络性能,支持通用、AI、存储以及百度自研 RDMA 等多协议引擎。
https://img-blog.csdnimg.cn/img_convert/0b17faa47617174da57b422b9d9ba175.png
为了提升网络性能,应对不断发展的业务需求,百度智能云打造了新一代自研网关平台。我们将 X86 CPU、可编程交换芯片、FPGA 加速卡融合在一起,形成一个可扩展的异构融合网关。
基于新一代自研网关平台,负载均衡和内网服务毗连等服务,在性能和质量上得到了极大的提升,实现了 T 级别流量转发本领,平均转发时延降低 20 倍以上,高负载时抖动降至 4us 以下,丢包率降至数亿分之一。
为了更好地提供服务体验,百度智能云通过服务网卡,使得百度网盘、百度舆图等生态可以被 VPC 内的其他公有云服务直接访问,替换了已往需要走外网访问方式,大幅降低数据传输成本和处理处罚效率。这套方案已经在生命科学、智能汽车等场景下广泛使用。
比如有一家来自基因测序行业的头部客户,将完成测序后的数据先存储在对象存储 BOS 中,然后一键同步至百度网盘提供给下游的客户快速下载。这不仅降低了云上的存储和带宽成本,还提升了他的客户的使用体验。
https://img-blog.csdnimg.cn/img_convert/2a0c6356fa80c66aee736e93880970a2.png
随着大数据和 AI 技能的成熟,企业对数据的使用越来越深入,上层的业务范例越来越多样,在接口上既需要文件的数据操作本领,又需要对象存储的扩展性和低成本。
传统存储是面向对象、文件、块等不同接口举行分别优化,各自提供技能底座支撑。这样带来的题目是产品之间的技能和本领不能共享和融合,维护和演进非常困难。
百度沧海·存储,结合本身在存储上 20 年的技能积累和沉淀,全新升级了同一技能底座。
技能底座的同一包括两个方面:


[*] 元数据存储同一到 TafDB,通过同一元数据底座,原生支持层级 namespace 宁静坦 namespace,兼具对象和文件的本领。在大数据场景下,可以或许大幅提升性能。
[*] 同一数据底座 Aries,支持多种数据模型,恰当不同的 I/O 模型的存储,同时可以支持机动 EC 模型,最低 1.05 副本。
这套技能底座支持融合介质,包括 AEP/SCM/SSD/HDD/磁带等多层次存储介质,这样就可以机动支持不同性能和成本要求的存储,让用户可以享受到性价比最高的存储。
在同一的技能底座上的底子上,对多种存储产品提供支持,包括百万亿级别对象存储、千亿高性能文件存储和最高单盘百万 IOPS 的块存储。
https://img-blog.csdnimg.cn/img_convert/b4e77f3cc0301233b9f7d65559db9b5a.png
在这个同一技能底座的底子上,我们今天带来各项存储产品新本领的发布。
首先是对象存储 BOS,支持平坦 namespace 和层级 namespace 互迁,这意味着对象存储融合了文件目次操作本领,大数据场景可以降低目次操作时延凌驾 70%。
其次是块存储 CDS,增强型 SSD PL3 的百 us 级读写时延,可以满足时延敏感业务平稳运行。增强型 SSD PL2,做到了性能容量解耦,支持配置额外性能,性能密度提升最高 4 倍,小容量也可以有高性能。
然后是并行文件存储 PFS ,发布标准型 L2 ,起购容量降低 50%,扩容步长降低 80%,购买门槛大幅降低。同时,我们还发布了极速型 L2,支持单文件系统 8 PB 超大规模,TBps 吞吐,万万 IOPS、亚毫秒时延,满足大容量高性能的需求。
通过同一技能底座的打造,以及基于这个底座推出的各项存储产品,让我们有信心不断加速智能盘算,开释数据价值。
https://img-blog.csdnimg.cn/img_convert/bf92088c65099db8db9c980252766d28.png
结合百度太行在盘算、网络,百度沧海在存储上面提供的各项本领,我们推出了高性能盘算平台 CHPC。这是百度智能云为用户提供的一站式公有云 HPC 服务。
在资源使用层面,通过这套高性能盘算平台,用户可以一键创建 HPC 盘算情况,随着业务变革机动使用云上资源。
在业务应用层面,用户可以一站式使用集成在 CHPC 中的各个行业应用,同时,结合已经集成在 VPC 内的百度网盘服务,实现了 HPC 源文件提交、上传、处理处罚、效果回传、分发全链路数据买通。
https://img-blog.csdnimg.cn/img_convert/ad53d348cb34994c3dba3520f571f9aa.png
在介绍完百度太行·盘算和百度沧海·存储等在通用盘算的最新进展后,我们继续介绍智能盘算方向上的最新结果。
https://img-blog.csdnimg.cn/img_convert/0384cf8b2744327e74093a3cd5e201da.png
百度百舸源自百度团体在 AI 底子办法的 10 年技能积累和工程实践,致力于加速用户 AI 业务落地。
自 2021 年发布 1.0 以来,百度百舸持续完善和升级相关本领,如今已经服务了泛互联网、自动驾驶、生命科学等多个领域的大量客户。
https://img-blog.csdnimg.cn/img_convert/a5b058a7a8150beac0aa0e0122ba5afb.png
今天我们全新发布百度百舸 3.0,它是专为大模型优化的底子办法。
我们知道大模型练习和推理,首先讲究的是快。在小模型单机单卡或者单机多卡,快就是一切。
但是遇上大模型,练习周期以月计,集群规模以千卡万卡计,光有快就不够了。在大模型的整个练习周期内会不断遇上设备故障、软件错误等题目,我们怎样确保这些题目不会影响到使命的举行,并且确保在整个生命周期内,使命一直可以快速稳固运行呢?
在最新的百度百舸 3.0 中,我们在高效、稳固、易运维三个方面大幅升级了产品本领。


[*] 性能方面,我们推出专为大模型设计的训推加速工具、高性能通信库、大镜像分发加速等本领,RDMA 带宽有用性可达 95%,练习和推理场景的吞吐可以提高 30%~60% 。
[*] 稳固性方面,我们针对大模型练习规模大,盘算时间长等特点,提供了集群故障检查工具和自动容错本领,并通过 Flash Checkpoint 功能大幅减少 Checkpoint 写入时间,降低故障恢复开销,使万卡级别使命有用练习时长达到 98% 以上。
[*] 易运维方面,百舸 3.0 结合了百度大规模 AI 算力集群的最佳实践,为用户提供丰富易用的运维和可观测工具,可以做到超大集群的有用运维,帮助用户高效的执行资源管理、故障定位恢复、使命性能调优等关键运维工作。
https://img-blog.csdnimg.cn/img_convert/4580d4dbeec7a1a10940b5c383bf63da.png
基于百舸可以为用户建设强盛的异构算力平台,但是在大模型期间对算力是无穷尽的,这就需要我们整合全社会的 AI 算力资源,加快 AI 普惠的到来,支持好 AI 原生应用的爆发。
我们这次全新推出了智算网络平台。


[*] 在算力资源层面,实现了智算中央、超算中央、边沿节点等全域接入,将分散、异构的算力资源毗连起来,形成了同一的算力网络资源池。
[*] 在算力调理层面,我们自主研发了「算力大脑」,实现算力的高效调理。它可以或许智能地分析各种算力资源的状态、性能和利用率,并根据实际情况举行动态的调理。这意味着我们可以轻松应对多元异构算力的复杂情况,实现跨域的智能调理。
[*] 在算力应用层面,通过算力网络平台我们可以或许为 AI 应用提供弹性供给、无处不在的盘算服务,从而满足各种AI应用的需求。
我们期望在将来,尤其是需要大量资源的大模型应用,用户可以方便地获取 AI 算力资源,不用再担心算力不敷的题目。
https://img-blog.csdnimg.cn/img_convert/6dfb44f930970f08ab0e5e91f0c323a1.png
在介绍完 IaaS 层的进展后,我们接下来分享一下 PaaS 层数据库和大数据方向的进展。
https://img-blog.csdnimg.cn/img_convert/b45d5a978ec940f9c059ad00bd6bab3b.png
云原生化是数据库的发展趋势,正在各个行业大规模商用。
为了加速云原生数据库的遍及,云原生数据库 GaiaDB 自 2020 年发布 1.0 以来,不断举行升级,成为一款具备高性能、多层级高可用特点的云原生数据库产品。
通过一切异步的理念,使得 GaiaDB 在平凡硬件也能有优秀的表现。通过不断地举行产品升级,支持了跨 Region 和跨 AZ 的热活高可用。
https://img-blog.csdnimg.cn/img_convert/d623bcbfb15f013344531c1a1f795a9b.png
随着云原生数据库在业务中使用场景的深入,复杂查询的场景越来越多。
在今天发布的 GaiaDB 4.0 中,有用地突破了复杂查询的性能瓶颈。GaiaDB 从 SQL 引擎、存储引擎、内部数据流等多个角度举行了深度重构。


[*] 在 SQL 引擎方向,GaiaDB 并行查询突破了单机盘算瓶颈,实现跨机多核并行查询,面向混淆负载和实时分析业务场景,性能提升 10 倍以上。
[*] 在存储引擎方向,GaiaDB 针对不同的应用负载,推出列存索引和列存引擎,为不同规模的数据查询举行加速。
[*] 在数据流优化方向,为了进一步提升性能,GaiaDB 在内核数据流上举行优化。通过共识协议优化、链路优化、自适应动态回放存储多版本等方法,GaiaDB 4.0 整体性能大幅提升 60%。
https://img-blog.csdnimg.cn/img_convert/9a51f07f13a8e97f12cddbe28795e9cf.png
数据库是一个门槛比较高的行业,要培养一个专业的,有履历的 DBA 要花费很多时间和金钱的。
数据库智能驾驶舱利用最新的大模型本领,实现数据库自动化、智能化的洞察、评估和优化。同时,针对数据库常见题目提供了专业的问答本领,可以媲美专业的 DBA。智能驾驶舱内置的智能问答,所使用的知识库是百度 18 年的数据库知识库的积累,可以做到复杂题目 80% 以上的正确率。
除专业知识之外,智能驾驶舱提供大量自动化的优化本领。数据库故障洞察方面,相比传统的人工定位提升 80%。智能评估相比传统的方法提前 1 个月发现数据库的容量瓶颈。在 SQL 优化方面,也带来 40% 以上的提升。
https://img-blog.csdnimg.cn/img_convert/e1e39d4903ad36ec8fc23c31b88cdd74.png
大数据平台作为各类在线和离线业务的数据处理处罚中央,核心是资源效能和盘算效率。百度智能云大数据平台全面升级了盘算引擎,支持高弹性、高性能数据盘算,提升资源利用率和作业效率。
在新版本的数据湖管理与分析平台 EasyDAP 中,我们实现了从数据集成、开发到分析的全流程 Serverless,可以提供 Job 级弹性伸缩,从而带来资源利用率的大幅提升。与此同时,也免去了复杂的资源配置步骤,提升开发体验和效率。
在盘算引擎方面,百度智能云自研的 BMR Spark 3.2, 相比于社区版本 Vanilla Spark 3.2,性能平均提升 2 倍。在同样时间内减少 50% 的盘算资源投入,或在等同资源下支持 2 倍作业量。
https://img-blog.csdnimg.cn/img_convert/38252675ef0c8f117728ae4eddb60919.png
传统 BI 工具的数据分析,从毗连数据源到天生符合需求的图表,一般需要 6 个步骤。但是,这仍有肯定的使用门槛,一般面向专业数据分析师。
Sugar BI 推出的智能问数(SugarBot)功能,基于大模型举行数据分析交互重构。通过天然语言对话,可将上述分析步骤精简为 3 个,显著降低数据分析门槛,提升业务洞察效率。
https://img-blog.csdnimg.cn/img_convert/b98df4bcb6d1395a3d68ef0c1ad25293.png
借助 SugarBot,平凡用户可以通过对话来实现大部分数据洞察,并可一键将天生的图表用于报表大屏。
在效率提升方面,对话模式(类 ChatGPT)的数据探索,可秒级获取可视化效果或业务结论,效率提升 5 倍。助手模式(类 Copilot)下的报表/大屏制作,效率提升 2 倍。
在本领方面,智能问数已支持 10 大主流分析本领。
此外,SugarBot 仍保存了 Sugar BI 的已有上风,可直连 30+ 范例的数据源,内置 150+ 可视化图表,并支持统计和预测的双重本领。
https://img-blog.csdnimg.cn/img_convert/2c50751a7134f80374f84dec80604444.png
刚才提到的这些新服务,百度智能云不仅通过中央云的形式提供,也将通过分布式云的方式,交付给用户。
https://img-blog.csdnimg.cn/img_convert/d82a3b151415d6bb4b1c19516ae30141.png
百度智能云一直大力建设分布式云,为用户交付各类形式的盘算资源,做到让智算无处不在。
这其中就包括边沿盘算节点 BEC,将公有云本领延伸至本地的本地盘算集群 LCC,以及私有化交付全栈 AI 底子办法的专有云 ABC Stack。
https://img-blog.csdnimg.cn/img_convert/98c0c305a5433d8256af457687e63bc4.png
在边沿盘算节点 BEC 中,我们不断扩大节点覆盖范围,完善云边一体的本领,推动全部边沿盘算节点的智能化升级。
在底子办法方面,我们创建起了覆盖广泛的边沿盘算节点,并打造了全球同一的网络。
在通用边沿盘算本领方面,我们提供了和中央云本领对齐的边沿 IaaS、边沿 PaaS 产品,无论客户身处何处,都能享受到划一的边沿盘算产品体验。
在边沿智能本领方面,我们在边沿提供了功能完备的 AI 盘算、AI 存储、AI 网络等产品。这使得在 AI 场景中,用户可以在中央练习,边沿推理,并通过云边一体的本领将两者买通,形成完备的业务模式,为客户提供了更高性价比的 AI 盘算服务。
https://img-blog.csdnimg.cn/img_convert/045e3bb25e90421094898a070841857e.png
专有云 ABC Stack 的新版本,完备集成了千帆大模型平台,可以为用户提供本地部署的一站式大模型开发调优和练习平台,帮助企业构建专属行业大模型应用,提升创新生产效率。
同时,基于客户实际场景,我们也沉淀了数智化转型场景的最佳实践。
在传统 IDC 业务上云实践中,我们帮助某省广电客户实现业务 0 改造迁徙上云:包括网络组网 0 改造,IP 地址 0 改造,防火墙安全策略 0 改造,大幅降低业务迁徙上云成本, 帮助广电媒体行业客户构建新一代 AIGC 云底座。
在容灾多活方案中,我们帮助某金融客户在 2023 年河北暴雨场景下,乐成完成了灾备切换和应用高可用,保障了用户业务一连性。
https://img-blog.csdnimg.cn/img_convert/a67c825c951525f8a63d7f078aff41d7.png
本地盘算集群 LCC,是兼具公有云延伸、本地化部署双重上风,具备混淆云架构特性的公有云产品。
当前 LCC 可以支持最新一代的 CPU/GPU 实例,并且已经实现对百度百舸·AI 异构盘算平台、高性能盘算平台 CHPC 的兼容,提供完备的 AI&HPC 集群管理本领。
LCC 可以依照不同 IDC 形式提供多种部署方案:


[*] 基于百度自有 IDC,LCC 可构建公有云专属地区,形成云上合规区或独享 AI 集群,为新兴行业实现智能化升级赋能。
[*] 基于客户指定 IDC,LCC 可构建公有云延伸地区,为地区算力集群或产业基地提供强有力的架构支持,为传统行业数字化转型提供具备可信、弹性、易用特点的公有云路径。
https://img-blog.csdnimg.cn/img_convert/892ff29c8c46077af9e075faa14b4ae8.png
在分别介绍完云底子办法和智算底子办法后,我们再来看看上层的应用平台
https://img-blog.csdnimg.cn/img_convert/764c65a1e13ac1dbc4c466bafdeba2cc.png
自 2014 年以来,百度智能云的智能视频云平台履历了四个大版本的升级迭代,包括了:以 CDN 资源层为底子,泛互联网场景为主的 1.0;构建全链路本领层,延伸至媒体行业的 2.0;再往上构建端到端的平台层,开拓传统行业的 3.0;再到本年我们全面场景化智能化重构,深入各类垂直行业的 4.0。
https://img-blog.csdnimg.cn/img_convert/594b6898167563ef9b47890ffa887ee0.png
我们这次推出智能视频云平台 4.0 ,致力于提供一站式、智能化的音视频办理方案。


[*] 在资源层,为了应对各类场景下对延时和成本的不同要求,我们升级了云边端一体化架构,将点播/直播/实时通讯同一融合成一张网,以便资源复用、机动调理、融合贯通。
[*] 在本领层,在多模态大模型的驱动下对本领举行了重构,例如:AIGC 智能集锦可以对视频举行自动识别并提取高光时刻;智感超清大模型使得去噪、去划痕、增强、超分等在一个使命里一次性搞定。同时我们将数字水印植入图片、视频文件中,高鲁棒性、高抗攻击率帮助 AIGC 内容做到可追溯。
[*] 在平台层,分别聚焦泛直播和泛安防场景,通过智能直播和智能视联网两大平台构建了一站式的办理方案。
https://img-blog.csdnimg.cn/img_convert/5b4abc1792f8e27fefd835e3c87ec518.png
智能直播平台聚焦体育赛事场景,提供了从智能摄像采集、直播录制到智能分析处理处罚等端到端的办理方案,让每个平凡人都能体验和超级体育明星一样的待遇。
我们颠末一年多的落地打磨,本次将重点带来三个新本领:


[*] 同一接入:作为赛事直播 PaaS 平台,我们开放同一的接入规范,支持各类采集设备的接入。
[*] 智能解说:解说对于一场赛事直播的意见意义性和观赏性是非常紧张的。传统的人工解说,需要解说员到现场,成本高质量不可控。我们可以让主播随时随地接入开播,并通过多模态大模型,智能天生解说内容和语音。
[*] 精彩集锦:我们通过对各类体育运动举行数据采集和练习,支持了足篮排、垒球、冰球、马拉松、滑雪等运动的智能集锦天生。
https://img-blog.csdnimg.cn/img_convert/5ed4bc2d86807a4b550b957407f8ba02.png
当今,视频智能分析是各个政府单元在城市管理过程中依赖的关键手段之一。为了实现各个委办局的视频共建共享,更好提升城市综合管理,百度智能视联网平台 EVS 推出了视频融合赋能平台。


[*] 全面覆盖主流协议、支持 50 万路+级别的大规模视频汇聚,可以或许实现市域视频共建共用共享。
[*] 通过算法共管、算力共调,覆盖了 20+ 场景、80+ 种算法的资源智能融合。通过云边端算力资源智能调理,提升解析效率。
[*] 该平台机动开放,支持赋能 20+ 委办局以及能源、交通、工业制造、新零售等领域使用,可以机动对接第三方业务平台。通过推送多维事件统计,事件共治,实现了视频融合数据的综合赋能。
https://img-blog.csdnimg.cn/img_convert/24b4103102ae6122556f5ef484f0dd8d.png
低代码平台可以或许很好地简化应用开发流程,降低开发难度,快速实现业务落地,让应用跟上业务发展的脚步。
在大模型期间,爱速搭将大模型的本领融入到产品中来,进一步提升了应用开发速率。
在开发过程中,通过大模型的加持,开发者可以将设计物料直接转成页面或应用,或者通过天然语言天生页面、物料、应用等,不用再像已往一样从原型图到终极物料的设计实现过程了。
同时在低代码开发的常用场景,比如智能类、内管类、流程类、集成类等,爱速搭针对特定的功能举行了增强,包括智能数据查询、页面脚手架、AI 毗连器等,使得这 4 个场景中的开发效率进一步提升,并且可以或许开发进场景更复杂的应用。
https://img-blog.csdnimg.cn/img_convert/52490162ae6f10ab93153f19502db3fc.png
今天关于 AI 原生云的介绍就先到这里。
欢迎各人更多地使用百度智能云的产品,加速构建 AI 原生应用,领跑 AI 原生期间。
https://img-blog.csdnimg.cn/img_convert/de573b2ebff74fa2ee01675eb8ba7336.png
以上是今天分享的全部内容。


[*]

[*]

[*]

[*]

[*]

[*]

[*]

[*]

[*]

[*]










免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AI 原生期间的云盘算