在先容了 Graviton4、Nitro5 和 Trainium2 这 3 颗大芯片之后,我们把算力视角举高到单台服务器的层级上。
2024 re:Invent 大会中,亚马逊云科技公用盘算高级副总裁 Peter DeSantis 首先引用了一篇 2020 年的论文:“AI 场景中巨量的盘算负载,并不能完全通过 ScaleOut(横向扩展)AI 集群来办理,同样也需要 ScaleUp(纵向扩展)单台 AI 服务器的能力。” 基于如许的计划头脑,Peter 推出了 Trainium2 Server 和 Trainium2 UltraServer。
Trainium2 Server:是一台集成了 16 块 Trainium2 的服务器,单台 Trainium Server 可提供 20.8 Pflops(万亿次每秒浮点运算)算力和 1.5TB HBM 显存,显存带宽达 46TB/s。可用于训练数十亿参数的大模型。同时为了可靠性,Trainium2 Server 中每一个 “刀片” 的整个结构计划非常简单,前面是 8 块 Nitro 芯片作为网络连接,后面就是两块 Trainium2 芯片提供 AI 加速运算。
Trainium2 UltraServer:则是一体化 64 卡 AI 算力机柜,代表了当前 AI 超级盘算的顶级性能,是运算能力 ScaleUP 的极致表现。Trainium2 UltraServer 高峰时提供 83.2 Pflops 算力(万亿次每秒浮点运算能力),6TB HBM 高速内存,以及 185TB/s 的 HBM 内存带宽。完全可以用来训练和部署目前最大的 AI 模型,包括语言、多模态和视觉模型。
那么,为什么必须要 ScaleUp 呢?由于当下先辈的 AI 大模型的参数数目呈指数级增长,如 GPT-4 等模型已经拥有数万亿参数,单一 AI 加速器芯片已经完全无法装下一个模型的体量,集群训练已经成为了常态。虽然,相应的集群训练技能和工具也已然成熟,但 AI 加速器集群之间的数据通讯效率就成为了难以忽视的瓶颈,例如,在训练 GPT-4 如许的超大型模型时,需要耗费巨大的盘算资源和漫长的时间。
在竞争愈发猛烈的 AI 大模型范畴中,怎样能够更高效的、更低成本的、更快速扩容满足算力需求的能力,就成为了赢得市场的关键之一。正如 Peter 所言:“在推动前沿模型的发展的进程中,对于极为苛刻的人工智能工作负载来说,再强大的盘算能力也永远不敷。”
而 ScaleUp 所带来的好处就是为大模型训练提供了更大的训练成功率、更高效的梯度数据汇聚与同步、更低的能源损耗。基于 Trainium2 UltraServer 支持的 Amazon EC2 Trn2 UltraServer 可以提供高达 83.2 FP8 PetaFLOPS 的性能以及 6TB 的 HBM3 内存,峰值带宽达到 185 TB/s,并借助 12.8 Tb/s EFA(Elastic Fabric Adapter)网络进行互连。让 AI 工程师能够考虑在单台 64 卡一体机内以更短的时间训练出更加复杂、更加精准的 AI 模型。
NeuronLink
Trainium2 UltraServer 的浩繁技能细节中不得不提到就是 NeuronLink,它是一种亚马逊云科技专有的网络互连技能,可使多台 Trainium2 Server 连接起来,成为一台逻辑上的服务器。
与传统的高速网络协议不同,NeuronLink 技能可以让 Trainium2 Server 之间直接访问彼此的内存,并提供每秒 2 TB 的带宽,耽误仅为 1 微秒。NeuronLink 技能使得多台 Trainium2 Server 就像是一台超级盘算机一样工作,故称之为 “UltraServer”。“这正是训练万亿级参数的大型人工智能模型所需要的超级盘算平台,非常强大!” Peter 先容道。
AI 超级盘算集群 —— Project Rainier
继续让我们把算力视角进步到集群、到数据中心。在 Peter keynote 的尾声,他提出了构建人工智能基础办法的 2 根支柱:
ScaleUp:构建更强大的 AI 服务器;
ScaleOut:构建更大规模、更高效率的 AI 服务器集群。
在 ScaleOut 层面,亚马逊云科技正在与 Anthropic 合作部署 Rainier 项目,Anthropic 联合创始人兼首席盘算官 Tom Brown 公布下一代 Claude 模型将在 Project Rainier 上训练。
Rainier 项目是一个巨大的 AI 超级盘算集群,包含数十万个 Trainium2 芯片,预计可提供约 130 FP8 ExaFLOPS 的超强性能,运算能力是以往集群的 5 倍多,将为 Anthropic 的下一代 Claude AI 模型提供支持。Rainier 项目将会帮助 Anthropic 的客户可以用更低价格、更快速度使用到更高智能的 Claude AI 大模型服务。
10p10u 网络架构
为了基于 Trainium2 UltraServer 实现 ExaFLOPS 级别的 AI 超级盘算集群,亚马逊云科技专门计划了 10p10u 网络架构。Peter 首先阐明白 AI Network 和 Cloud Network 存在着本质的区别。由于每台 Trainium2 UltraServer 都有近 13TB 的网络带宽,所以需要大规模的、区别于 Cloud Network 的 AI Network 来防止出现瓶颈。
Peter 表现:“我们称之为 10p10u,由于它能够为数千台服务器提供高达 10PB 的网络容量,并且耽误时间低于 10 微秒。10p10u 网络是大规模并行且麋集互连的,而且 10p10u 网络具有弹性,我们可以将其缩小到只有几个机架,也可以将其扩展到跨多个物理数据中心园区的集群,具有良好的弹性。”
SIDR 路由协议
在十万卡、乃至百万卡的 10p10u AI 网络架构中,其规模非常巨大,路由相对复杂。SIDR(Scalable Intent Driven Routing,可扩展意图驱动路由)是亚马逊云科技专为管理这种复杂的 AI 网络架构而计划路由协议,SIDR 开创性的结合了 “集中规划 + 分散实行” 的特性,是一个混淆式的路由协议。该协议使网络能够在不到一秒的时间内响应故障,这比其他方法快十倍。
Amazon Bedrock 新一代 Gen AI 用户界面
那么在云云强大的 AI 基础办法架构中,为亚马逊云科技带来了那些 AI 技能创新呢?Amazon Bedrock 绝对是其中之一。
Amazon Bedrock 是亚马逊云科技在 2023 年发布的一项完全托管服务,让用户在可以不管关心基础办法复杂度的前提下快速使用到全球领先 AI 公司的高性能基础模型,目前支持的 AI 模型已超过 40 个,并且陆续支持了包括:导入定制模型、支持微调、利用自有数据进行检索增强生成(RAG)、全托管 Agent 等多种 AI 大模型功能。
通过 Amazon Bedrock 作为新一代 Gen AI 用户界面,为用户构建 Gen AI 应用步伐提供完整的云上自服务。
在 2024 re:Invent 中,亚马逊云科技基于强大的 Tranium2 Server 推出了 Bedrock 低耽误优化推理功能。