IT评测·应用市场-qidao123.com

标题: NVIDIA(英伟达) GPU 芯片架构发展史 [打印本页]

作者: 小秦哥    时间: 2025-3-6 19:00
标题: NVIDIA(英伟达) GPU 芯片架构发展史
GPU 性能的关键参数

NVIDIA GPU 系列型号分类

1. 消费级 GeForce 系列

2. 专业工作站级

3. 数据中心级

NVIDIA GPU 架构发展简史

NVIDIA Tesla 系列服务器 GPGPU 用于大规模的分布式 AI 训练。



2008 - Tesla(特斯拉) 

Tesla 架构是 NVIDIA 第一个实现了统一着色器模子的芯片架构,具有完整的 Transform(坐标转换)、Lighting(光源处理)、Setup(三角形设置)和 Rendering(渲染引擎) 功能。针对 HPC 和 AI 场景,应用于早期的 CUDA 系列显卡中,但并非真正意义上的 GPGPU 芯片。



再细化每个  SP,包含了:



2010 - Fermi(费米) 

Fermi 是第一个真正意义上的 GPGPU 架构芯片,拥有 30 亿个晶体管,共计 512 个 CUDA core。并进步了以下关键特性:



2012 - Kepler(开普勒) 

Kepler 的架构筹划思路是淘汰 SM 单位数(在这一代中叫 SMX 单位),增加每组 SM 单位中的 CUDA core 数,每个 SM 单位的 CUDA core 数由 Fermi 架构的 32 个增至 192 个。相较于 Fermi,Kepler 更快,服从更高,性能更好。


Kepler 将 SM 升级到了 SMX,支持动态创建渲染线程(下图),以低落 CPU 和 GPU 之间的数据传输延迟。
每个 SMX:



2014 - Maxwell(麦克斯韦) 

Maxwell 的 SM 单位和 Kepler 相比又有很大变革,这一代的 SM 单位更像是把 4 个 Fermi 的 SM 单位,按照 2x2 的方式排列在一起,这一代称之为 SMM 单位。
SMM 使用基于象限的筹划,具有四个 32 CUDA core 的 Processing blocks(处理块),每个处理块都有一个专用的 Warp 调度程序,能够在每个时钟分派两条指令。

每个处理块:



2016 - Pascal(帕斯卡) 

Pascal 将处理器和数据集成在同一个程序包内,以实现更高的计算服从。
Pascal 的 CUDA core 总数从 Maxwell 的每组 SM 单位 128 个淘汰到了每组 64 个,这一代最大的特点是又把 DP 双精度运算单位加回来了。制程工艺升级到了 16nm,性能大幅提拔,功耗却不增加。1080 系列、1060 系列基于 Pascal 架构。
Pascal 拥有 GP100、GP102 两种大核心,核心是一个完整的 GPU 模组。



GP100 核心的 SM 单位:

2017 - Volta(伏特) 

Volta 配备了 640 个 Tensor 核心,每秒可提供超过 100 兆次浮点运算(TFLOPS)的深度学习效能,用于深度学习、AI 运算等,比前一代的 Pascal 架构快 5 倍以上。
Tesla V100(Volta 架构)



从 Volta 开始,将一个 CUDA core 拆分为两部分:
好处是在同一个时钟周期里,可以同时执行浮点和整数指令,进步计算速度。
Volta 架构的 GV100 核心。每个 SM 单位中,分为 4 个 Process Block,每个 Process Block 中:



2018 - Turing(图灵) 

Turing 架构配备了名为 RT Core 的专用光线追踪处理器,能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算。
Turing 架构将实时光线追踪运算加速至上一代 NVIDIA Pascal™ 架构的 25 倍,并能以高出 CPU 30 多倍的速度进行影戏效果的最终帧渲染。2060 系列、2080 系列显卡也是跳过了 Volta 直接选择了 Turing 架构。


Turing架构现在一共有 3 种核心:
Turing 架构的 TU102 GPU,它的特点如下:

TU102 核心的单个 SM 的结构图如下:



2020 - Ampere(安培) 

2020 年 5 月 14 日,NVIDIA 发布了最新一代的 A100 GPU 产物(简称 GA100),采用 Ampere 架构。
Tesla A100(Ampere 架构)



下面我们通过 Ampere 架构为例,先容 GPU 的构成部分。


Ampere 架构沿用了成熟的 GPC-TPC-SM 多级架构,包含了:



再将 A100 核心的 SM 展开,可以看到 Ampere 的 SM 单位筹划沿用了从 Volta 开始的分精度计算思路,将计算核心分成了:
每个 SM 包含了:

此中 RT Cores 是游戏卡才有的,面对纯计算用途的 GA100 并不必要。
每个子模块包含了:



而 GA102 核心的 SM 单位,分成 4 个处理块,每个处理块中:

2022 - Hopper(霍珀) 

Hopper 架构的 H100 GPU 是 NVIDIA 划时代的产物,其 CUDA 核心数量达到了惊人的 14,592~16,896 颗,转为 AI 大模子训练开辟。
Tesla H100(Hopper 架构)

H100 相对于 A100 有了质的飞跃。配备 InfiniBand interconnect 的 H100 的性能是 A100 的 30 倍。新的 NVLink 交换体系互连针对一些最大且最具挑战性的计算工作负载,这些工作负载必要跨多个 GPU 加速节点的模子并行性来顺应。这些工作负载带来了新一代的性能飞跃,在某些环境下, InfiniBand 的性能比 H100 再次进步了三倍。


H100 架构详解保举浏览官方文档:https://developer.nvidia.com/zh-cn/blog/nvidia-hopper-architecture-in-depth/


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4