IT评测·应用市场-qidao123.com技术社区

标题: NVIDIA Hopper 架构深入 [打印本页]

作者: 温锦文欧普厨电及净水器总代理 时间: 2025-4-2 11:23
标题: NVIDIA Hopper 架构深入
在 2022 年 NVIDIA GTC 主题演讲中，NVIDIA 首席实行官黄仁勋介绍了基于全新 NVIDIA Hopper GPU 架构的全新 NVIDIA H100 Tensor Core GPU。

<hr> 媒介

这篇文章将带您相识新的 H100 GPU ，并介绍 NVIDIA Hopper 架构 GPU 的紧张新功能。
<hr> 一、NVIDIA H100 Tensor Core GPU 简介

NVIDIA H100 Tensor Core GPU 是我们的第九代数据中央 GPU，旨在为大规模 AI 和 HPC 提供比上一代 NVIDIA A100 Tensor Core GPU 高一个数目级的性能飞跃。H100 继续了 A100 的紧张设计重点，以改善 AI 和 HPC 工作负载的强大扩展，并显著进步架构效率。

对于当今主流的 AI 和 HPC 模子，具有 InfiniBand 互连功能的 H100 可提供高达 A100 30 倍的性能。新的 NVLink 交换机系统互连针对一些最大和最具挑衅性的计算工作负载，这些工作负载需要跨多个 GPU 加速节点的模子并行性才气适应。这些工作负载又实现了一次代际性能飞跃，在某些环境下，性能再次是 H100 的三倍，使用 InfiniBand。

有绩效数据均为开端数据，基于当前预期，并可能会因配送商品而有所变化。A100 集群：HDR IB 网络。H100 聚集：NDR IB 网络，其中指示了 NVLink 交换机系统。# GPU：天气建模 1K、LQCD 1K、基因组学 8、3D-FFT 256、MT-NLG 32（批次大小：1 秒时 A100 4 个、H100 60 个、A100 8 个和 H100 64 个 1.5 秒和 2 秒）、MRCNN 8（批次 32）、GPT-3 16B 512（批次 256）、DLRM 128（批次 64K）、GPT-3 16K（批次 512）、MoE 8K（批次 512，每个 GPU 一名专家）。H100 系统目前不提供 NVLink Switch System 技能，但将公布系统和可用性。
在 2022 年春季 GTC 大会上，我们发布了新的 NVIDIA Grace Hopper 超等芯片产品。NVIDIA Hopper H100 Tensor Core GPU 将为 NVIDIA Grace Hopper 超等芯片 CPU+GPU 架构提供支持，该架构专为 TB 级加速计算而构建，并在大型模子 AI 和 HPC 上提供 10 倍的性能提拔。
NVIDIA Grace Hopper 超等芯片利用 Arm 架构的灵活性来创建专为加速计算而设计的 CPU 和服务器架构。H100 与具有超高速 NVIDIA 芯片到芯片互连的 NVIDIA Grace CPU 配对，可提供 900 GB/s 的总带宽，比 PCIe Gen5 快 7 倍。与当今最快的服务器相比，这种创新设计的聚合带宽进步了 30 倍，为使用 TB 级数据的应用步伐提供了高达 10 倍的性能。二、NVIDIA H100 GPU 紧张功能概述

1. 新的流式多处理器（SM）具有很多性能和效率改进。

紧张新功能包括：

与 A100 相比，新的第四代 Tensor Core 的芯片到芯片速率进步了 6 倍，包括每 SM 加速、额外的 SM 数目和更高的 H100 时钟。与上一代 16 位浮点选项相比，在每个 SM 的底子上，Tensor Core 在等效数据范例上提供的 MMA（矩阵乘法累加）计算速率是 A100 SM 的 2 倍，使用新 FP8 数据范例的 A100 的 4 倍。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性，将标准 Tensor Core 运算的性能进步了一倍
与 A100 GPU 相比，新的 DPX 指令将动态编程算法的速率进步了 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法，以及用于通过动态堆栈环境为机器人队列寻找最佳门路的 Floyd-Warshall 算法。
与 A100 相比，IEEE FP64 和 FP32 的芯片到芯片处理速率进步了 3 倍，因为每个 SM 的时钟对时钟性能进步了 2 倍，此外尚有额外的 SM 数目和更高的 H100 时钟。
新的线程块聚集功能支持以大于单个 SM 上单个线程块的粒度对位置进行编程控制。这通过向编程条理结构添加另一个级别来扩展 CUDA 编程模子，如今包括线程、线程块、线程块集群和网格。集群支持跨多个 SM 并发运行的多个线程块，以同步和协作获取和交换数据。
分布式共享内存允许跨多个 SM 共享内存模块的加载、存储和原子的直接 SM 到 SM 通信。
新的异步实行功能包括一个新的 Tensor Memory Accelerator （TMA）单位，该单位可以在全局内存和共享内存之间高效传输大块数据。TMA 还支持集群中线程块之间的异步复制。尚有一个新的异步事务屏蔽，用于实行原子数据移动和同步。

2. 新的 transformer 引擎结合使用软件和定制的 NVIDIA Hopper Tensor Core 技能，该技能专为加速 transformer 模子练习和推理而设计。

Transformer 引擎智能地管理 FP8 和 16 位计算并在 FP8 和 16 位计算之间动态选择，在每一层中主动处理 FP8 和 16 位之间的重新转换和缩放，与上一代 A100 相比，在大型语言模子上提供高达 9 倍的 AI 练习速率和高达 30 倍的 AI 推理速率。
3. HBM3 内存子系统的带宽比上一代增长了近 2 倍。

H100 SXM5 GPU 是世界上第一款采用 HBM3 显存的 GPU，可提供一流的 3 TB/秒内存带宽。
4. 50 MB L2 缓存架构可缓存大部门模子和数据集以供重复访问，从而减少对 HBM3 的迁徙。

5. 与 A100 相比，第二代多实例 GPU （MIG）技能为每个 GPU 实例提供大约 3 倍的计算容量和近 2 倍的内存带宽。

如今初次提供具有 MIG 级 TEE 的秘密计算功能。最多支持 7 个单独的 GPU 实例，每个实例都有专用的 NVDEC 和 NVJPG 单位。如今，每个实例都包含本身的一组性能监控器，这些监控器可与 NVIDIA 开辟职员工具共同使用。
6. 新的秘密计算支持可保护用户数据，抵御硬件和软件攻击，并在虚拟化和 MIG 环境中更好地隔离和保护虚拟机（VM）。

H100 实现了世界上第一个原生秘密计算 GPU，并通过 CPU 以全 PCIe 线速扩展了可信实行环境（TEE）。
7. 与上一代 NVLink 相比，第四代 NVIDIA NVLink 的全缩减操作带宽增长了 3 倍，一样平常带宽增长了 50%，总带宽为 900 GB/秒，实用于以 PCIe Gen 7 带宽运行的多 GPU IO。

8. 第三代 NVSwitch 技能包括驻留在节点内部和外部的交换机，用于连接服务器、集群和数据中央环境中的多个 GPU。

节点中的每个 NVSwitch 都提供 64 个第四代 NVLink 链路端口，以加速多 GPU 连接。交换机总吞吐量从上一代的 7.2 Tbits/秒增长到 13.6 Tbits/秒。新的第三代 NVSwitch 技能还为团体操作提供硬件加速，包括多播和 NVIDIA SHARP 网络内减少。
9. 新的 NVLink 交换机系统互连技能和基于第三代 NVSwitch 技能的新型二级 NVLink 交换机引入了地址空间隔离和保护，使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2：1 锥形胖树拓扑进行连接。

这些连接的节点能够提供 57.6 TB/秒的全对全带宽，并且可以提供令人难以置信的 1 exaFLOP FP8 稀疏 AI 计算。
10. PCIe Gen 5 提供 128 GB/秒的总带宽（每个方向 64 GB/秒），而第 4 代 PCIe 的总带宽为 64 GB/秒（每个方向 32 GB/秒）。

PCIe Gen 5 使 H100 能够与最高性能的 x86 CPU 和 SmartNIC 或数据处理单位（DPU）连接。
还包括很多其他新功能，以改进强扩展、减少耽误和开销，并从总体上简化 GPU 编程。
三、NVIDIA H100 GPU 架构深入

1. 基于全新 NVIDIA Hopper GPU 架构的 NVIDIA H100 GPU 具有多项创新：

新的第四代 Tensor Core 在更广泛的 AI 和 HPC 使命上实行比以往更快的矩阵计算。
新的 transformer 引擎使 H100 的 AI 练习速率进步了 9 倍，AI 速率进步了 30 倍。与上一代 A100 相比࿰

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)