IT评测·应用市场-qidao123.com技术社区

标题: NVIDIA Hopper 架构深入 [打印本页]

作者: 温锦文欧普厨电及净水器总代理    时间: 2025-4-2 11:23
标题: NVIDIA Hopper 架构深入
在 2022 年 NVIDIA GTC 主题演讲中,NVIDIA 首席实行官黄仁勋介绍了基于全新 NVIDIA Hopper GPU 架构的全新 NVIDIA H100 Tensor Core GPU。
  
  


<hr> 媒介

这篇文章将带您相识新的 H100 GPU ,并介绍 NVIDIA Hopper 架构 GPU 的紧张新功能。
<hr> 一、NVIDIA H100 Tensor Core GPU 简介

NVIDIA H100 Tensor Core GPU 是我们的第九代数据中央 GPU,旨在为大规模 AI 和 HPC 提供比上一代 NVIDIA A100 Tensor Core GPU 高一个数目级的性能飞跃。H100 继续了 A100 的紧张设计重点,以改善 AI 和 HPC 工作负载的强大扩展,并显著进步架构效率。

对于当今主流的 AI 和 HPC 模子,具有 InfiniBand 互连功能的 H100 可提供高达 A100 30 倍的性能。新的 NVLink 交换机系统互连针对一些最大和最具挑衅性的计算工作负载,这些工作负载需要跨多个 GPU 加速节点的模子并行性才气适应。这些工作负载又实现了一次代际性能飞跃,在某些环境下,性能再次是 H100 的三倍,使用 InfiniBand。

有绩效数据均为开端数据,基于当前预期,并可能会因配送商品而有所变化。A100 集群:HDR IB 网络。H100 聚集:NDR IB 网络,其中指示了 NVLink 交换机系统。# GPU:天气建模 1K、LQCD 1K、基因组学 8、3D-FFT 256、MT-NLG 32(批次大小:1 秒时 A100 4 个、H100 60 个、A100 8 个和 H100 64 个 1.5 秒和 2 秒)、MRCNN 8(批次 32)、GPT-3 16B 512(批次 256)、DLRM 128(批次 64K)、GPT-3 16K(批次 512)、MoE 8K(批次 512,每个 GPU 一名专家)。H100 系统目前不提供 NVLink Switch System 技能,但将公布系统和可用性。
在 2022 年春季 GTC 大会上,我们发布了新的 NVIDIA Grace Hopper 超等芯片产品。NVIDIA Hopper H100 Tensor Core GPU 将为 NVIDIA Grace Hopper 超等芯片 CPU+GPU 架构提供支持,该架构专为 TB 级加速计算而构建,并在大型模子 AI 和 HPC 上提供 10 倍的性能提拔。
NVIDIA Grace Hopper 超等芯片利用 Arm 架构的灵活性来创建专为加速计算而设计的 CPU 和服务器架构。H100 与具有超高速 NVIDIA 芯片到芯片互连的 NVIDIA Grace CPU 配对,可提供 900 GB/s 的总带宽,比 PCIe Gen5 快 7 倍。与当今最快的服务器相比,这种创新设计的聚合带宽进步了 30 倍,为使用 TB 级数据的应用步伐提供了高达 10 倍的性能。 二、NVIDIA H100 GPU 紧张功能概述

1. 新的流式多处理器 (SM) 具有很多性能和效率改进。

紧张新功能包括:


2. 新的 transformer 引擎结合使用软件和定制的 NVIDIA Hopper Tensor Core 技能,该技能专为加速 transformer 模子练习和推理而设计。

Transformer 引擎智能地管理 FP8 和 16 位计算并在 FP8 和 16 位计算之间动态选择,在每一层中主动处理 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模子上提供高达 9 倍的 AI 练习速率和高达 30 倍的 AI 推理速率。
3. HBM3 内存子系统的带宽比上一代增长了近 2 倍。

H100 SXM5 GPU 是世界上第一款采用 HBM3 显存的 GPU,可提供一流的 3 TB/秒内存带宽。
4. 50 MB L2 缓存架构可缓存大部门模子和数据集以供重复访问,从而减少对 HBM3 的迁徙。

5. 与 A100 相比,第二代多实例 GPU (MIG) 技能为每个 GPU 实例提供大约 3 倍的计算容量和近 2 倍的内存带宽。

如今初次提供具有 MIG 级 TEE 的秘密计算功能。最多支持 7 个单独的 GPU 实例,每个实例都有专用的 NVDEC 和 NVJPG 单位。如今,每个实例都包含本身的一组性能监控器,这些监控器可与 NVIDIA 开辟职员工具共同使用。
6. 新的秘密计算支持可保护用户数据,抵御硬件和软件攻击,并在虚拟化和 MIG 环境中更好地隔离和保护虚拟机 (VM)。

H100 实现了世界上第一个原生秘密计算 GPU,并通过 CPU 以全 PCIe 线速扩展了可信实行环境 (TEE)。
7. 与上一代 NVLink 相比,第四代 NVIDIA NVLink 的全缩减操作带宽增长了 3 倍,一样平常带宽增长了 50%,总带宽为 900 GB/秒,实用于以 PCIe Gen 7 带宽运行的多 GPU IO。

8. 第三代 NVSwitch 技能包括驻留在节点内部和外部的交换机,用于连接服务器、集群和数据中央环境中的多个 GPU。

节点中的每个 NVSwitch 都提供 64 个第四代 NVLink 链路端口,以加速多 GPU 连接。交换机总吞吐量从上一代的 7.2 Tbits/秒增长到 13.6 Tbits/秒。新的第三代 NVSwitch 技能还为团体操作提供硬件加速,包括多播和 NVIDIA SHARP 网络内减少。
9. 新的 NVLink 交换机系统互连技能和基于第三代 NVSwitch 技能的新型二级 NVLink 交换机引入了地址空间隔离和保护,使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 锥形胖树拓扑进行连接。

这些连接的节点能够提供 57.6 TB/秒的全对全带宽,并且可以提供令人难以置信的 1 exaFLOP FP8 稀疏 AI 计算。
10. PCIe Gen 5 提供 128 GB/秒的总带宽(每个方向 64 GB/秒),而第 4 代 PCIe 的总带宽为 64 GB/秒(每个方向 32 GB/秒)。

PCIe Gen 5 使 H100 能够与最高性能的 x86 CPU 和 SmartNIC 或数据处理单位 (DPU) 连接。
   还包括很多其他新功能,以改进强扩展、减少耽误和开销,并从总体上简化 GPU 编程。
  三、NVIDIA H100 GPU 架构深入

1. 基于全新 NVIDIA Hopper GPU 架构的 NVIDIA H100 GPU 具有多项创新:



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4