嚴華 发表于 2024-6-19 20:46:20

英伟达系列显卡大剖析B100、H200、L40S、A100、A800、H100、H800、V100怎样

英伟达系列显卡大剖析B100、H200、L40S、A100、A800、H100、H800、V100怎样选择,含架构技术和性能对比带你办理迷惑

近期,AIGC范畴呈现出一片繁荣景象,其背后离不开强大算力的支持。以ChatGPT为例,其高效的运行依赖于一台由微软投资建造的超级计算机。这台超级计算机配备了数万个NVIDIA A100 GPU,并使用60多个数据中心的数十万个GPU辅助,为ChatGPT提供了强大的算力支持。这种规模的算力摆设不但体现了AIGC技术的先辈性,也预示着人工智能技术将来的发展趋势。这种集成了高性能计算、大数据处置处罚和人工智能算法的超级计算机,将成为推动科技进步的紧张引擎。
1.GPU 的核心架构及参数

在相识 V100、A100、H100 这几款 GPU 的区别之前,我们先来简单相识下 NVIDIA GPU 的核心参数,如许能够更好地帮助我们相识这些 GPU 的差异和各自的优势。


[*]CUDA Core:CUDA Core 是 NVIDIA GPU 上的计算核心单元,用于实行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示本身的运算本领,CUDA Core 指的是一个实行基础运算的处置处罚元件,我们所说的 CUDA Core 数目,通常对应的是 FP32 计算单元的数目。
[*]Tensor Core:Tensor Core 是 NVIDIA Volta 架构及其后续架构(如 Ampere 架构)中引入的一种特别计算单元。它们专门用于深度学习任务中的张量计算,如[矩阵乘法]和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提拔。
[*]RT Core:RT Core 是 NVIDIA 的专用硬件单元,紧张用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的,紧张是斲丧级显卡才为光线追踪运算添加了 RTCores。RT Core 紧张用于游戏开发、电影制作和虚拟现实等需要实时渲染的范畴。
NVIDIA GPU 架构的演进:
https://img-blog.csdnimg.cn/img_convert/06dccbb6671a6479d26665b96f5e16c9.png
从上图中就可以看出,V100 是前一代的算力大哥 ,而 H100 则是新一代的大哥,这些架构区别:


[*]Volta 架构:Volta 架构是 NVIDIA GPU 的第六代架构,发布于 2017 年。Volta 架构专注于深度学习和人工智能应用,并引入了 Tensor Core。
[*]Turing 架构:Turing 架构是 NVIDIA GPU 的第七代架构,发布于 2018 年。Turing 架构引入了实时光线追踪(RTX)和深度学习超采样(DLSS)等紧张功能。
[*]Ampere 架构:Ampere 架构是 NVIDIA GPU 的第八代架构,2020 年发布。Ampere 架构在计算本领、能效和深度学习性能方面都有重大提拔。Ampere 架构的 GPU 采用了多个[流多处置处罚器](SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。它还引入了第三代 Tensor Core,提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处置处罚和呆板学习任务。
[*]Hopper 架构:Hopper 架构是 NVIDIA GPU 的第九代架构,2022 年发布。相较于 Ampere,Hopper 架构支持第四代 Tensor Core,且采用新型流式处置处罚器,每个 SM 本领更强。Hopper 架构在计算本领、深度学习加速和图形功能方面带来新的创新和改进。
1.1 V100 vs A100 vs H100

在相识了 GPU 的核心参数和架构后,我们接下来的对比明确起来就简单多了。
https://img-blog.csdnimg.cn/img_convert/5daee1dc83621ac22ac13df623f5c417.png
1.1.1 V100 vs A100

V100 是 NVIDIA 公司推出的[高性能计算]和人工智能加速器,属于 Volta 架构,它采用 12nm FinFET 工艺,拥有 5120 个 CUDA 核心和 16GB-32GB 的 HBM2 显存,配备第一代 Tensor Cores 技术,支持 AI 运算。
A100 采用全新的 Ampere 架构。它拥有高达 6912 个 CUDA 核心和 40GB 的高速 HBM2 显存。A100 还支持第二代 NVLink 技术,实现快速的 GPU 到 GPU 通讯,提拔大型模型的练习速度。A100 增长了功能强大的新第三代 Tensor Core,同时增长了对 DL 和 HPC 数据类型的全面支持,以及新的稀疏功能,可将吞吐量进一步翻倍。
A100 中的 TF32 Tensor Core 运算提供了一种在 DL 框架和 HPC 中加速 FP32 输入 / 输出数据的简单路径,其运行速度比 V100 FP32 FMA 运算快 10 倍,大概在稀疏性的情况下快 20 倍。对于 FP 16/FP 32 混合精度 DL,A100 的性能是 V100 的 2.5 倍,稀疏性的情况下提高到 5 倍。
在跑 AI 模型时,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的练习上性能提拔 6 倍,BERT 推断时性能提拔 7 倍。
https://img-blog.csdnimg.cn/img_convert/15fe6426c9c7c7d620073c6055bd8403.png

[*] 架构:A100采用了最新的Ampere架构,而V100则采用了前一代的Volta架构。Ampere架构相对于Volta架构具有更高的计算密度、更多的CUDA核心和更快的内存带宽,因此A100在计算本领上更强。
[*] 计算本领:A100的浮点计算本领到达19.5 TFLOPS(FP32)和156 TFLOPS(TensorFloat-32),而V100的浮点计算本领为14.1 TFLOPS(FP32)。这意味着A100在相同的工作负载下可以实现更高的计算性能。
[*] Tensor Core:A100显卡引入了第三代Tensor Core技术,相较于V100的第二代Tensor Core,A100的Tensor Core在混合精度计算和矩阵乘法运算方面更加高效。这使得A100在深度学习练习和推理中具有更好的性能优势。
[*] 内存容量和带宽:A100显卡拥有40 GB或80 GB的HBM2E高带宽存储器,内存带宽到达1.6 TB/s。而V100显卡则有16 GB或32 GB的HBM2存储器,内存带宽为900 GB/s。A100的更大内存容量和更高带宽可以处置处罚更大规模的数据集和复杂的计算任务。
[*] NVLink连接:A100支持第三代NVLink技术,提供了高速的GPU互连通讯,可在多个A100显卡之间实现更快的数据传输和并行计算。而V100则支持第二代NVLink。
1.1.2 A100 vs H100

NVIDIA H100 采用 NVIDIA Hopper GPU 架构,使 NVIDIA 数据中心平台的加速计算性能再次实现了重大飞跃。H100 采用专为 NVIDIA 定制的 TSMC 4N 工艺制造,拥有 800 亿个 [晶体管],并包含多项架构改进。
https://img-blog.csdnimg.cn/img_convert/8e671020742c587454e7786264af7d47.png
H100 是 NVIDIA 的第 9 代数据中心 GPU,旨在为大规模 AI 和 HPC 实现相比于上一代 NVIDIA A100 Tensor Core GPU 数目级的性能飞跃。H100 连续了 A100 的紧张设计重点,可提拔 AI 和 HPC 工作负载的强大扩展本领,并显著提拔架构效率。
1.1.3 A800 和 H800

从数字上来看,800 比 100 数字要大,其实是为了合规对 A100 和 H100 的某些参数做了调整。A800 相对比 A100 而言,仅限制了 GPU 之间的互联带宽,从 A100 的 600GB/s 降至 400GB/s,算力参数无变革。而 H800 则对算力和[互联带宽]都进行了调整。
https://img-blog.csdnimg.cn/img_convert/6a66af70f96fec1c74108d1230e5f4d3.png
A800 虽然在互联带宽上有所降低,但和 A100 在双精方面算力划一,在[高性能科学计算]范畴没有影响。
1.1.4 H800 VS H100

作为 H100 的替代品,中国特供版 H800,PCIe 版本 SXM 版本都是在双精度(FP64)和 nvlink 传输速率的削减,其他其他参数和 H100 都是千篇一律的。
FP64 上的削弱紧张影响的是 H800 在科学计算,流体计算,[有限元分析](等超算范畴的应用,深度学习等应用紧张看单精度的浮点性能,大部门场景下性能不受影响。而受到影响较大的还是 NVlink 上的削减,但是因为架构上的升级,虽然比不上同为 Hopper 架构的 H100,但是比 ampere 架构的 A800 还是要强上不少的。
https://img-blog.csdnimg.cn/img_convert/84263fd88390d5f6b7b3efec0fd34ef0.jpeg
1.2 A100 vs H100G细解

1.2.1 新的 SM 架构

H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构而构建。由于引入了 FP8,与 A100 相比,H100 SM 将每 SM 浮点计算本领峰值提拔了 4 倍,而且对于之前全部的 Tensor Core 和 FP32 / FP64 数据类型,将各个时钟频率下的原始 SM 计算本领增长了一倍。
与上一代 A100 相比,采用 Hopper 的 FP8 Tensor Core 的新 Transformer 引擎使大型语言模型的 AI 练习速度提拔 9 倍,AI 推理速度提拔 30 倍。针对用于基因组学和[蛋白质测序]的 Smith-Waterman 算法,Hopper 的新 DPX 指令可将其处置处罚速度提拔 7 倍。
https://img-blog.csdnimg.cn/img_convert/75720c907a81310ca0eca40793fc0124.png
1.2.2 第四代 Tensor Core 架构

Hopper 新的第四代 Tensor Core、Tensor 内存加速器以及很多其他新 SM 和 H100 架构的总体改进,在很多其他情况下可令 HPC 和 AI 性能获得最高 3 倍的提拔。
https://img-blog.csdnimg.cn/img_convert/8e28b829b5d5cb021772efed6fe2fcd7.png
与 A100 相比,H100 中新的第四代 Tensor Core 架构可使每时钟每个 SM 的原始密集计算和[稀疏矩阵]运算吞吐量提拔一倍,考虑到 H100 比 A100 拥有更高的 GPU 加速频率,其乃至会到达更高的吞吐量。其支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。新的 Tensor Core 还能够实现更高效的数据管理,最高可节流 30% 的操作数传输功耗。
1.2.3 Hopper FP8 数据格式

H100 GPU 增长了 FP8 Tensor Core,可加速 AI 练习和推理。FP8 Tensor Core 支持 FP32 和 FP16 累加器,以及两种新的 FP8 输入类型:E4M3(具有 4 个[指数位]、3 个尾数位和 1 个符号位)和 E5M2(具有 5 个指数位、2 个尾数位和 1 个符号位)。E4M3 支持动态范围更小、精度更高的计算,而 E5M2 可提供更宽广的动态范围和更低的精度。与 FP16 或 BF16 相比,FP8 可将所需要的数据存储空间减半,并将吞吐量提拔一倍。
新的 Transformer 引擎可结合使用 FP8 和 FP16 精度,减少内存使用并提高性能,同时仍能保持大型语言模型和其他模型的准确性。
https://img-blog.csdnimg.cn/img_convert/01317bb9cc38dfda2d312f2e95d03603.png
综合 H100 中全部新的计算技术进步的因素,H100 的计算性能比 A100 提高了约 6 倍。首先是 H100 配备 132 个 SM,比 A100 的 108 个 SM 增长了 22%。由于采用新的第四代 Tensor Core,每个 H100 SM 的速度都提拔了 2 倍。在每个 Tensor Core 中,新的 FP8 格式和相应的 Transformer 引擎又将性能提拔了 2 倍。末了,H100 中更高的时钟频率将性能再提拔了约 1.3 倍。通过这些改进,总体而言,H100 的峰值[计算吞吐量]大约为 A100 的 6 倍。
https://img-blog.csdnimg.cn/img_convert/e85c7c070a34623c8d66423a77f54749.png
1.2.4 NVLink Switch 系统升级

为了加速业务速度,百亿亿次级 HPC 和万亿参数的 AI 模型需要[服务器集群]中每个 GPU 之间高速、无缝的通讯,以实现大规模加速。
第四代 NLVink 是一种[纵向扩展互联技术],当与新的外部 NVLlink [交换机]结合使用时,NVLink Switch 系统现在可以跨多个服务器以每个 GPU 900 GB/s 的双向带宽扩展多 GPU IO,比 PCIe 5.0 的带宽高 7 倍。NVLINK Switch 系统支持多达 256 个相互连接的 H100 构成的集群,且带宽比 Ampere 架构上的 InfiniBard HDR 高 9 倍。
第三代 NVSwitch 技术包括驻扎在节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个 GPU。
节点内的每个 NVSwitch 提供 64 个第四代 NVLink 链接端口,以加速多 GPU 连接。交换机的总吞吐量从上一代的 7.2 Tbits / 秒增长到 13.6 Tbits / 秒。新的第三代 NVSwitch 技术还为多播和 NVIDIA SHARP 网内还原的集体操作提供了硬件加速。
https://img-blog.csdnimg.cn/img_convert/27d64f2d025f0d602ffd2a914f1b6fa6.jpeg
新的 NVLink 互连和基于第三代 NVSwitch 技术的新的二级 NVLink Switches 引入了[地址空间]隔离和掩护,使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2:1 的锥形树状拓扑连接起来。
总结一下,相比 A100,H100 更受接待,因为[缓存耽误]更低和计算效率更高。效率提拔 3 倍的情况下,本钱只有只有(1.5-2 倍)。从技术细节来说,比起 A100,H100 在 16 位推理速度大约快 3.5 倍,16 位练习速度大约快 2.3 倍。
2.目前主流四款GPU详解

项目A100H100L40SH200架构AmpereHopperAda LovelaceHopper发布时间2020202220232024FP649.7 TFLOPS34 TFLOPS暂无34 TFLOPSFP64 向量核心19.5 TFLOPS67 TFLOPS暂无67 TFLOPSFP3219.5 TFLOPS67 TFLOPS91.6 TFLOPS67 TFLOPSTF32 向量核心312 TFLOPS989 TFLOPS183366* TFLOPSBFLOAT16 向量核心624 TFLOPS1,979 TFLOPS362.05733* TFLOPSFP16 向量核心624 TFLOPS1,979 TFLOPS362.05733* TFLOPSFP8 向量核心不适用3,958 TFLOPS7331,466* TFLOPSINT8 向量核心1248 TOPS3,958 TOPS7331,466* TFLOPSINT4 向量核心暂无暂无7331,466* TFLOPSGPU 内存80 GB HBM2e80 GB48GB GDDR6 ,带有 ECC141GB HBM3eGPU 内存带宽2,039 Gbps3.35 Tbps864 Gbps4.8 Tbps解码器Not applicable7 NVDEC 7 JPEGNot applicable7 NVDEC 7 JPEG最高 TDP400W700W350W700W多实例 GPU最高 7 MIGs @ 10 GB最高 7 MIGs @ 10 GB each无最高 7 MIGs @16.5 GB each外形尺寸SXMSXM4.4“(H) x 10.5” (L), dual slotSXM**互联技术NVLink: 600 GB/s PCIe Gen4: 64 GB/sNVLink: 900GB/s PCIe Gen5: 128GB/sPCIe Gen4 x16: 64GB/s bidirectionalNVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s服务器平台选项NVIDIA HGX™ A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX™ A100 with 8 GPUsNVIDIA HGX H100 Partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs暂无NVIDIA HGX™ H200 partner and NVIDIA-Certified Systems™ with 4 or 8 GPUsNVIDIA AI EnterpriseIncludedAdd-on暂无Add-onCUDA 核心数6,91216,89618,176暂无 2.1 A100(2020)

A100 是 2020 年首次采用 Ampere 架构的 GPU,这种架构带来显著的性能提拔。在 H100 发布之前,A100 一览众山小。它的性能提拔得益于改进的 Tensor 核心、更多的 CUDA 核心数目、更强的内存和最快的 2 Tbps 内存带宽。


[*]针对大型模型提供高达 3 倍的 AI 练习速度
https://img-blog.csdnimg.cn/img_convert/3312eed4f43053d0ca0789d3221e11d7.jpeg
https://img-blog.csdnimg.cn/img_convert/867fe8cd01bf8e409c72e64793455cf6.jpeg
https://img-blog.csdnimg.cn/img_convert/16bd48f41f1dbdec21b481d702dce44c.jpeg
A100 支持多实例 GPU 功能,允许单个 A100 GPU 分割成多个独立的小 GPU,这大大提拔了云和数据中心的资源分配效率。A100 在练习复杂的神经网络、深度学习和 AI 学习任务方面仍然是一个优秀的选择,它的 Tensor 核心和高吞吐量在这些范畴表现出色。A100 在 AI 推理任务方面表现突出,在语音辨认、图像分类、推荐系统、数据分析和大数据处置处罚、科学计算场景都有优势,在基因测序和药物发现等高性能计算场景也都属于优势范畴。
https://img-blog.csdnimg.cn/img_convert/c7b926e125574c0a8cb9e091adb5bdc3.jpeg


[*]深度学习推理
A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允很多个网络同时基于单个 A100 运行,从而优化计算资源的使用率。在 A100 其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能提拔。在 BERT 等先辈的对话式 AI 模型上,A100 可将推理吞吐量提拔到高达 CPU 的 249 倍。在受到批量大小限制的极复杂模型(例如用于主动语音辨认用途的 RNN-T)上,显存容量有所增长的 A100 80GB 能使每个 MIG 的大小增长一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。NVIDIA 产品的出色性能在 MLPerf 推理测试中得到验证。A100 再将性能提拔了 20 倍,进一步扩大了这种性能优势。
2.2 H100(2022)

H100 能处置处罚最具挑衅性的 AI 工作负载和大规模数据处置处罚任务。H100 升级了 Tensor 核心,显著提高了 AI 练习和推理的速度。支持双精度(FP64)、单精度(FP32)、半精度(FP16)和整数(INT8)计算负载。
https://img-blog.csdnimg.cn/img_convert/d6d399b85009184e6013e1b7fc9d254b.png
https://img-blog.csdnimg.cn/img_convert/2f05e84cceb83c64672fc3c30d205b2e.jpeg
相比 A100,FP8 计算速度提拔六倍,到达 4petaflops。内存增长 50%,使用 HBM3 高带宽内存,带宽可达 3 Tbps,外部连接速度险些到达 5 Tbps。此外,新的 Transformer 引擎使模型转换器练习速度提拔高达六倍。
https://img-blog.csdnimg.cn/img_convert/7a3130fa9ecfcf16ae26c9c68fff873b.png
尽管 H100 和 A100 在使用场景和性能特点上有相似之处,但 H100 在处置处罚大型 AI 模型和更复杂的科学模仿方面表现更佳。H100 是高级对话式 AI 和实时翻译等实时响应型 AI 应用的更优选择。
总之,H100 在 AI 练习和推理速度、内存容量和带宽、以及处置处罚大型和复杂 AI 模型方面相比 A100 有显著的性能提拔,适用于对性能有更高要求的 AI 和科学模仿任务。
2.3 L40S(2023)

https://img-blog.csdnimg.cn/img_convert/e06801c752cfb01d541bb0094a5e1bef.jpeg
L40S 旨在处置处罚下一代数据中心工作负载,包括生成式 AI、大型语言模型(LLM)的推理和练习,3D 图形渲染、科学模仿等场景。与前一代 GPU(如 A100 和 H100)相比,L40S 在推理性能上提高了高达 5 倍,在实时光线追踪(RT)性能上提高了 2 倍。内存方面,它配备 48GB 的 GDDR6 内存,还参加了对 ECC 的支持,在高性能计算环境中维护数据完备性还是很紧张的。L40S 配备高出 18,000 个 CUDA 核心,这些并行处置处罚器是处置处罚复杂计算任务的关键。L40S 更注意可视化方面的编解码本领,而 H100 则更专注于解码。尽管 H100 的速度更快,但价格也更高。从市场情况来看,L40S 相对更轻易获得。综上所述,L40S 在处置处罚复杂和高性能的计算任务方面具有显著优势,特别是在生成式 AI 和大型语言模型练习等范畴。其高效的推理性能和实时光线追踪本领使其成为数据中心不可忽视的存在。
https://img-blog.csdnimg.cn/img_convert/292a2b07476c6c06760a6f609ce4bc36.jpeg
https://img-blog.csdnimg.cn/img_convert/8cf5e0de8894e675c51c08b26abe9390.jpeg
2.4 H200(2024)

200 将是 NVIDIA GPU 系列中的最新产品,预计在 2024 年第二季度开始发货。NVIDIA H200 Tensor Core GPU 具有改变游戏规则的性能和内存功能,可加强生成式 AI 和高性能计算 (HPC) 工作负载。作为首款采用 HBM3e 的 GPU,H200 借助更大更快的内存可加速生成式 AI 和大型语言模型 (LLM) 的运行,同时推进 HPC 工作负载的科学计算。
NVIDIA H200 和 H100 GPU 采用 Transformer 引擎(FP8 精度),与上一代 GPU 相比,可助力大语言模型的练习速度最高提拔至原来的 5 倍。通过结合使用能够提供 900GB/s GPU 间互连的第四代 NVLink、PCIe 5.0 以及 Magnum IO™ 软件,小型企业可高效扩展为大规模同一 GPU 集群。这些基础架构技术进步能够与 NVIDIA AI Enterprise 软件套件协同发挥作用,让 HGX H200 和 HGX H100 成为卓越的 AI 计算平台。
   NVIDIA H200 基于 NVIDIA Hopper 架构,与 H100 相互兼容,这意味着已经使用先前模型进行练习的人工智能公司将无需更改其服务器系统或软件即可使用新版本。
https://img-blog.csdnimg.cn/img_convert/6458fc1bdcc70543a77f84feeea75178.png
H200 是首款提供 141 GB HBM3e 内存和 4.8 Tbps 带宽的 GPU,其内存容量和带宽分别险些是 H100 的 2 倍和 1.4 倍。
https://img-blog.csdnimg.cn/img_convert/0ce141bdf7796c6ed549bf2065196ff7.png
在高性能计算方面,与 CPU 相比,H200 能实现高达 110 倍的加速,从而更快地得到效果。在处置处罚 Llama2 70B 推理任务时,H200 的推理速度是 H100 GPU 的两倍。
https://img-blog.csdnimg.cn/img_convert/93a533575dd82310b468906f48f50646.jpeg
运行 GPT-3 等模型时,NVIDIA H200 Tensor Core GPU 的推理性能提高了 18 倍。不但如此,在其他生成式 AI 基准测试中,还能在 Llama2-13B 上每秒可处置处罚 12000 个 tokens。
2.5 B100(2024)

将来
https://img-blog.csdnimg.cn/img_convert/bf1c16947a466f60527870f32556815d.jpeg


[*]参考链接:
https://www.zhihu.com/question/618932114/answer/3211844003
https://zhuanlan.zhihu.com/p/680317363
https://www.nvidia.cn/data-center/a100/
https://www.nvidia.cn/data-center/h100/
https://www.nvidia.cn/data-center/l40s/
https://www.nvidia.com/en-au/data-center/h200/
更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 英伟达系列显卡大剖析B100、H200、L40S、A100、A800、H100、H800、V100怎样