Fermi 架构采用第三代流处理器,每个 SM 有 16 个加载/存储单元(Load/Store, LD/ST),允许为每个时钟 16 个线程计算源地址和目的地址,支持将每个地址的数据加载并存储到缓存或 DRAM 中。特别功能单元(Special Function Unit, SFU)实行超越函数,如 sin、cos、导数平静方根。每个 SFU 在每个线程、每个时钟实行一条指令,一次 warp(由 32 个线程组成的线程组)要经过 8 个时钟周期。SFU 管线与调理单元解耦,允许调理单元在占用 SFU 时向其他实行单元发出下令。双精度算法是高性能计算应用的核心,每个 SM、每个时钟可实行多达 16 个双精度融合乘加运算。
每个 SM 有两个 warp 调理器和两个指令调理单元,允许同时发出和实行两个 warp。并行计算重要在 CUDA 中进行处理,每个 CUDA 处理器都有一个完整的流水线整数算术逻辑单元(ALU)和浮点单元(FPU),可以选择 FP 32 大概 INT 8 实行计算,但是 FP Unit 和 INT Unit 的实行不是并行的。
安全 AI:内置英伟达机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。
解压缩引擎:拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。
大卫·哈罗德·布莱克韦尔(David Harold Blackwell)是 20 世纪美国闻名的数学家和统计学家,他在统计学领域做出了卓越的贡献,被誉为统计学的巨匠,第一个非裔美国人当选为美国国家科学院院士,也是第一个获得美国数学学会最高奖——Leroy P. Steele 奖章的非裔美国人。重要成绩包括:
NVLink 是双向直接 GPU-GPU 互连,第五代 NVLink 毗连主机和加速处理器的速度高达每秒 1800GB/s,这是传统 x86 服务器的互连通道——PCIe 5.0 带宽的 14 倍多。英伟达 NVLink-C2C 还将 Grace CPU 和 Hopper GPU 进行毗连,加速异构系统可为数万亿和数万亿参数的 AI 模型提供加速性能。
NVLink Generation
1.0
2.0
3.0
4.0
5.0
NVLink bandwidth per GPU
300GB/s
300GB/s
600GB/s
900GB/s
1,800GB/s
Maximum Number of Links per GPU
6
6
12
18
18
Architectures
Pascal
Volta
Ampere
Hopper
Blackwell
Year
2014
2017
2020
2022
2024
NVSwitch
NVSwitch 是 NVLink 交换机系统的关键使能器,它能够以 NVLink 速度实现 GPU 跨节点的毗连。它包含与 400 Gbps 以太网和 InfiniBand 毗连兼容的物理( PHY )电气接口。随附的管理控制器如今支持附加的八进制小尺寸可插拔( OSFP )模块 。
NVSwitch Generation
1.0
2.0
3.0
NVLink Switch
Number of GPUs with direct connection within a NVLink domain
Up to 8
Up to 8
Up to 8
Up to 576
GPU-to-GPU bandwidth
300GB/s
600GB/s
900GB/s
1,800GB/s
Total aggregate bandwidth
2.4TB/s
4.8TB/s
7.2TB/s
1PB/s
Architectures
Volta
Ampere
Hopper
Blackwell
Year
2017
2020
2022
2024
小结与思考