Nvidia Blackwell架构深度剖析:深入了解RTX 50系列GPU的升级 ...

打印 上一主题 下一主题

主题 881|帖子 881|积分 2643

在CES 2025上,英伟达推出了基于Blackwell架构的GeForce RTX 50系列显卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段时间以来,我们已经知晓了该架构的各种细节,此中许多此前还只是传闻。不过,英伟达近日在2025年国际消费电子展(CES)期间的媒体编辑日活动上,披露了更多关于焦点功能的信息与细节。本文主要聚焦于Blackwell RTX 50系列GPU的架构变革。

英伟达并未对新架构的某些方面提供大量细节,但从宏观层面来看,与RTX 40系列Ada Lovelace架构相比,很多方面似乎变化不大。大多数升级和改进主要围绕AI和各种神经渲染技术——我们会在另一篇文章中对这些内容进行更深入的探究。
下面这张PPT展示了Blackwell架构的目标:针对新的神经计算工作负载进行优化、镌汰内存占用、新增服务质量功能以及提升能源效率。这些听起来都很不错。不过,除了RTX 5090拥有显著更大的GPU焦点(面积达744平方毫米,而RTX 4090为608平方毫米)之外,很多升级更像是渐进式的。

这并非意味着毫无变化。第四代光线追踪(RT)焦点的光线与三角形相交速率是Ada架构的两倍,也是为Mega Geometry构建的。这有助于将来基于虚幻引擎5开发的游戏运行得更流畅。GPU着色器也针对神经着色器进行了增强,此外另有一些其他新特性。
Blackwell架构使英伟达GPU初次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限定。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。视频编码息争码功能也得到了增强,现在支持4:2:2视频流。
性能数据方面,若以“最高可达4000 AI TOPS(每秒数万亿次运算)”来计算,RTX 5090的实际运算能力为3400 TOPS(准确来说是3352)。进一步探究会发现,性能提升的很大一部分得益于原生FP4支持。因此,在同等条件下对比,RTX 5090的FP8运算能力为1676 TFLOPS,而RTX 4090为1321 TFLOPS FP8。这仅有27%的提升——增幅可观,但算不上巨大飞跃。

雷同的性能提升比例在其他方面也有体现,比如FP32着色器计算。RTX 5090的FP32运算能力最高可达104.8 TFLOPS,而RTX 4090为82.6 TFLOPS。同样,这也是27%的性能提升。而RTX 4090相较于RTX 3090,GPU TFLOPS提升了惊人的132%。那才是令人兴奋的升级!
毫无疑问,RTX 5090会比RTX 4090更快、更出色,但它并不会完全逾越上一代产物——至少在不考虑多帧生成(Multi Frame Generation)技术的情况下是这样。另外,RTX 5090的焦点面积也大了22%,晶体管数目多了21%,它们都基于台积电4N工艺节点。
在架构方面,另有其他一些值得关注的变化。随着人工智能应用的增多以及此类工作负载对整数运算的需求,英伟达让Blackwell架构中的所有着色器焦点都完全兼容FP32/INT32运算。在安培(Ampere,RTX 30系列)架构中,英伟达将FP32 CUDA焦点数目翻倍,但此中一半仅支持FP32运算,另一半则可同时进行FP32和INT32运算——INT32常用于内存指针计算。Ada架构延续了这一筹划,而现在Blackwell架构再次让所有CUDA焦点保持同等,数目是图灵(Turing)架构的两倍。

英伟达还对着色器渲染管线进行了一些调解,以便更好地混合着色器和张量焦点运算。英伟达将其归类为神经着色器,虽然其他RTX系列似乎仍能运行这些工作负载,但与Blackwell架构的GPU相比,速率会相对较慢。这部分得益于着色器执行重排序(SER,Shader Execution Reordering)技术的改进,在Blackwell架构上的运行速率是Ada架构的两倍。
Blackwell架构还带来了内存升级,从Ada架构的GDDR6和GDDR6X全面转向GDDR7。我们尚不清晰这是否适用于所有RTX 50系列GPU,但考虑到RTX 5070条记本电脑GPU都配备了8GB GDDR7,我们推测这可能是全系列的配置。这是自2018年RTX 20系列初次引入GDDR6(时钟频率仅为14Gbps)以来,我们初次看到的图形内存全面升级。

大多数基于Blackwell架构的RTX 50系列GPU的GDDR7运行频率为28Gbps,是最初GDDR6芯片速率的两倍,但相比许多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速率仅提升了33%。RTX 5080的GDDR7频率提升至30Gbps,险些是RTX 2080 Super 15.5Gbps内存速率的两倍。
除了RTX 5090,其他型号的显存位宽没有变化。RTX 5090配备了512位的超大显存位宽和32GB GDDR7内存。将来的3GB GDDR6芯片为产物周期后期可能推出的48GB版本,或面向专业/数据中心、接纳翻盖式筹划且容量高达96GB的GPU留下了可能性,但英伟达短期内不会对此进行官方品评或发布相干消息。
RTX 5080仍然保持256位显存位宽和16GB显存容量,因此,只管其带宽比RTX 4080 Super提升了30%,但显存容量保持不变。RTX 5070 Ti(与RTX 5070 Ti Super相比)和RTX 5070(与RTX 4070相比)也是云云,只是它们的带宽提升了33%——从21Gbps提升至28Gbps。
Blackwell架构的另一个新特性是AI管理处理器。(趁便提一下,英伟达完全没有提及光流加快器,即OFA,这是Ada架构引入的新特性,但现在可能已被停用,取而代之的是更强盛的张量运算。)

随着人工智能工作负载日益复杂,以及更多人工智能模子可能同时运行的情况——想象一下,一款游戏同时进行图像放大、神经纹理处理、帧生成和AI非玩家角色运算——英伟达希望能更好地调度资源。AI管理处理器旨在实现这一目标,而且据说可以根据正在运行的工作负载类型以及需要优先完成的任务来进行调度。例如,为了先完成多帧生成(MFG,Multi Frame Generation),文本生成的大语言模子(LLM)运算可以稍微耽误。
Blackwell架构还改进了电源门控和能源管理,能够比前几代产物更快地进入和退出深度睡眠模式。
综上所述,英伟达的Blackwell架构虽没有带来翻天覆地的变革,但在诸多关键范畴实现了稳步升级与创新。从硬件性能提升到功能特性优化,再到内存和架构筹划的改进,Blackwell架构的RTX 50系列GPU为将来的图形处理和人工智能应用描画了一幅充满潜力的蓝图。

值得关注的是,英伟达 RTX 5090 Founders Edition和 RTX 5080 Founders Edition将于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也将于 2 月闪亮登场。各位小伙伴们,是不是已经如饥似渴准备好钱包,坐等 RTX 50 系列显卡到手,开启全新的极致体验了呢?
想了解更多有关RTX 50系产物以及RTX 5090整机相干的信息,不管是技术题目还是应用规划,欢迎随时接洽我们,期待能为您提供有价值的见解与支持。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

盛世宏图

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表