NVIDIA Hopper 架构深入
在 2022 年 NVIDIA GTC 主题演讲中,NVIDIA 首席实行官黄仁勋介绍了基于全新 NVIDIA Hopper GPU 架构的全新 NVIDIA H100 Tensor Core GPU。https://i-blog.csdnimg.cn/direct/1097ad0f62784d439d069a708bc1c723.png#pic_center
https://i-blog.csdnimg.cn/direct/8c1139b1a1d943db881a2df3a61c7dd4.gif#pic_center
<hr> 媒介
这篇文章将带您相识新的 H100 GPU ,并介绍 NVIDIA Hopper 架构 GPU 的紧张新功能。
<hr> 一、NVIDIA H100 Tensor Core GPU 简介
NVIDIA H100 Tensor Core GPU 是我们的第九代数据中央 GPU,旨在为大规模 AI 和 HPC 提供比上一代 NVIDIA A100 Tensor Core GPU 高一个数目级的性能飞跃。H100 继续了 A100 的紧张设计重点,以改善 AI 和 HPC 工作负载的强大扩展,并显著进步架构效率。
https://i-blog.csdnimg.cn/direct/97bf7018f88c4c289511f8b35f920bc8.png
对于当今主流的 AI 和 HPC 模子,具有 InfiniBand 互连功能的 H100 可提供高达 A100 30 倍的性能。新的 NVLink 交换机系统互连针对一些最大和最具挑衅性的计算工作负载,这些工作负载需要跨多个 GPU 加速节点的模子并行性才气适应。这些工作负载又实现了一次代际性能飞跃,在某些环境下,性能再次是 H100 的三倍,使用 InfiniBand。
https://i-blog.csdnimg.cn/direct/a30aaef03cec44e7ad164fcb210e3dc2.png
有绩效数据均为开端数据,基于当前预期,并可能会因配送商品而有所变化。A100 集群:HDR IB 网络。H100 聚集:NDR IB 网络,其中指示了 NVLink 交换机系统。# GPU:天气建模 1K、LQCD 1K、基因组学 8、3D-FFT 256、MT-NLG 32(批次大小:1 秒时 A100 4 个、H100 60 个、A100 8 个和 H100 64 个 1.5 秒和 2 秒)、MRCNN 8(批次 32)、GPT-3 16B 512(批次 256)、DLRM 128(批次 64K)、GPT-3 16K(批次 512)、MoE 8K(批次 512,每个 GPU 一名专家)。H100 系统目前不提供 NVLink Switch System 技能,但将公布系统和可用性。
在 2022 年春季 GTC 大会上,我们发布了新的 NVIDIA Grace Hopper 超等芯片产品。NVIDIA Hopper H100 Tensor Core GPU 将为 NVIDIA Grace Hopper 超等芯片 CPU+GPU 架构提供支持,该架构专为 TB 级加速计算而构建,并在大型模子 AI 和 HPC 上提供 10 倍的性能提拔。
NVIDIA Grace Hopper 超等芯片利用 Arm 架构的灵活性来创建专为加速计算而设计的 CPU 和服务器架构。H100 与具有超高速 NVIDIA 芯片到芯片互连的 NVIDIA Grace CPU 配对,可提供 900 GB/s 的总带宽,比 PCIe Gen5 快 7 倍。与当今最快的服务器相比,这种创新设计的聚合带宽进步了 30 倍,为使用 TB 级数据的应用步伐提供了高达 10 倍的性能。 二、NVIDIA H100 GPU 紧张功能概述
1. 新的流式多处理器 (SM) 具有很多性能和效率改进。
紧张新功能包括:
[*] 与 A100 相比,新的第四代 Tensor Core 的芯片到芯片速率进步了 6 倍,包括每 SM 加速、额外的 SM 数目和更高的 H100 时钟。与上一代 16 位浮点选项相比,在每个 SM 的底子上,Tensor Core 在等效数据范例上提供的 MMA(矩阵乘法累加)计算速率是 A100 SM 的 2 倍,使用新 FP8 数据范例的 A100 的 4 倍。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,将标准 Tensor Core 运算的性能进步了一倍
[*] 与 A100 GPU 相比,新的 DPX 指令将动态编程算法的速率进步了 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于通过动态堆栈环境为机器人队列寻找最佳门路的 Floyd-Warshall 算法。
[*] 与 A100 相比,IEEE FP64 和 FP32 的芯片到芯片处理速率进步了 3 倍,因为每个 SM 的时钟对时钟性能进步了 2 倍,此外尚有额外的 SM 数目和更高的 H100 时钟。
[*] 新的线程块聚集功能支持以大于单个 SM 上单个线程块的粒度对位置进行编程控制。这通过向编程条理结构添加另一个级别来扩展 CUDA 编程模子,如今包括线程、线程块、线程块集群和网格。集群支持跨多个 SM 并发运行的多个线程块,以同步和协作获取和交换数据。
[*] 分布式共享内存允许跨多个 SM 共享内存模块的加载、存储和原子的直接 SM 到 SM 通信。
[*] 新的异步实行功能包括一个新的 Tensor Memory Accelerator (TMA) 单位,该单位可以在全局内存和共享内存之间高效传输大块数据。TMA 还支持集群中线程块之间的异步复制。尚有一个新的异步事务屏蔽,用于实行原子数据移动和同步。
2. 新的 transformer 引擎结合使用软件和定制的 NVIDIA Hopper Tensor Core 技能,该技能专为加速 transformer 模子练习和推理而设计。
Transformer 引擎智能地管理 FP8 和 16 位计算并在 FP8 和 16 位计算之间动态选择,在每一层中主动处理 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模子上提供高达 9 倍的 AI 练习速率和高达 30 倍的 AI 推理速率。
3. HBM3 内存子系统的带宽比上一代增长了近 2 倍。
H100 SXM5 GPU 是世界上第一款采用 HBM3 显存的 GPU,可提供一流的 3 TB/秒内存带宽。
4. 50 MB L2 缓存架构可缓存大部门模子和数据集以供重复访问,从而减少对 HBM3 的迁徙。
5. 与 A100 相比,第二代多实例 GPU (MIG) 技能为每个 GPU 实例提供大约 3 倍的计算容量和近 2 倍的内存带宽。
如今初次提供具有 MIG 级 TEE 的秘密计算功能。最多支持 7 个单独的 GPU 实例,每个实例都有专用的 NVDEC 和 NVJPG 单位。如今,每个实例都包含本身的一组性能监控器,这些监控器可与 NVIDIA 开辟职员工具共同使用。
6. 新的秘密计算支持可保护用户数据,抵御硬件和软件攻击,并在虚拟化和 MIG 环境中更好地隔离和保护虚拟机 (VM)。
H100 实现了世界上第一个原生秘密计算 GPU,并通过 CPU 以全 PCIe 线速扩展了可信实行环境 (TEE)。
7. 与上一代 NVLink 相比,第四代 NVIDIA NVLink 的全缩减操作带宽增长了 3 倍,一样平常带宽增长了 50%,总带宽为 900 GB/秒,实用于以 PCIe Gen 7 带宽运行的多 GPU IO。
8. 第三代 NVSwitch 技能包括驻留在节点内部和外部的交换机,用于连接服务器、集群和数据中央环境中的多个 GPU。
节点中的每个 NVSwitch 都提供 64 个第四代 NVLink 链路端口,以加速多 GPU 连接。交换机总吞吐量从上一代的 7.2 Tbits/秒增长到 13.6 Tbits/秒。新的第三代 NVSwitch 技能还为团体操作提供硬件加速,包括多播和 NVIDIA SHARP 网络内减少。
9. 新的 NVLink 交换机系统互连技能和基于第三代 NVSwitch 技能的新型二级 NVLink 交换机引入了地址空间隔离和保护,使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 锥形胖树拓扑进行连接。
这些连接的节点能够提供 57.6 TB/秒的全对全带宽,并且可以提供令人难以置信的 1 exaFLOP FP8 稀疏 AI 计算。
10. PCIe Gen 5 提供 128 GB/秒的总带宽(每个方向 64 GB/秒),而第 4 代 PCIe 的总带宽为 64 GB/秒(每个方向 32 GB/秒)。
PCIe Gen 5 使 H100 能够与最高性能的 x86 CPU 和 SmartNIC 或数据处理单位 (DPU) 连接。
还包括很多其他新功能,以改进强扩展、减少耽误和开销,并从总体上简化 GPU 编程。
三、NVIDIA H100 GPU 架构深入
1. 基于全新 NVIDIA Hopper GPU 架构的 NVIDIA H100 GPU 具有多项创新:
[*] 新的第四代 Tensor Core 在更广泛的 AI 和 HPC 使命上实行比以往更快的矩阵计算。
[*] 新的 transformer 引擎使 H100 的 AI 练习速率进步了 9 倍,AI 速率进步了 30 倍。与上一代 A100 相比
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]