首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
SAAS
ToB门户
了解全球最新的ToB事件
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
微博
Follow
记录
Doing
博客
Blog
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
排行榜
Ranklist
相册
Album
应用中心
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
数据库
›
SQL-Server
›
GPU集群故障分析:大型AI训练中的硬件标题与影响 ...
返回列表
发新帖
GPU集群故障分析:大型AI训练中的硬件标题与影响
[复制链接]
发表于 2025-6-12 08:12:25
|
显示全部楼层
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
GPU集群故障分析:大型AI训练中的硬件标题与影响
焦点标题
在大型AI计算集群(如利用上千块GPU卡训练大模子)中:
GPU硬件会出哪些弊端?
这些标题发生的频率、严重程度怎样?
最终对AI训练使命有什么影响?
研究对象
Delta AI 计算集群
:
共有 1168 块 GPU(含 A40、A100、H100 等型号)
运行时间:两年半
数据来源:完整记录了该时间段内的所有 GPU 故障信息
关键发现
GPU最怕坏的不是显存,是“心脏”和“血管”!
“心脏”脆弱(GPU硬件本身):
均匀每
800个节点小时
就会发生一次标题(如GPU死机、通信失败)。
比人们广泛担心的显存错误
频繁30倍以上
!
“血管”爱堵(NVLink连接):
GPU之间的高速通信通道 NVLink 极易堕落!
均匀每
6.9小时
就会陈诉一次 NVLink 错误。
好消息:其中
2/3 的情况能被系统自动修复
(重传机制),只有
1/3 导致使命失败
。
“显存”相对可靠:
显存相关的严重错误(双比特错误 DBE)非常少见。
均匀
2.6万节点小时
才发生一次显存致命错误。
“新管家” GSP 不太靠谱:
新一代GPU中负责管理底层硬件的模块
GSP
是最脆弱的部件之一。
一旦 GSP 堕落,GPU险些立刻“罢工”(>99%概率)。
必须重启整个
服务器
节点才气规复,耗时可能长达
23小时
。
小错变大错,连锁反应严重:
PMU通信小错是“雷”:
GPU内部电源管理单元
PMU
出现通信错误后:
82% 的几率
会立刻引发更严重的
MMU内存管理错误
。
而这个 MMU 错误
险些100% 会导致训练使命崩溃
。
NVLink错误“传染性”弱:
NVLink 堕落时:
86% 的情况只影响单个GPU
只有
14% 会波及同节点其他GPU
显存坏了也能“自救”,结果不错:
现代GPU(如 A100/H100)具备强大的“自愈”本事来应对显存错误:
第一步:换行(XID 63)
发现坏点后,实行举行“行重映射”
大多数情况下可以解决
第二步:隔离(XID 94)
假如换行失败,就封锁坏掉的显存地区
GPU仍可继续运行
第三步:崩溃(XID 95)
隔离失败时才会导致彻底宕机
需要手动重启
最闭幕果
:得益于这些机制,
70.6% 的严重显存错误被成功控制住
,GPU没有立刻挂掉,训练使命还能继续运行(直到下一次维护)。
哪些错误最常搞垮AI训练使命?
从数据来看:
MMU 内存管理错误 (XID 31)
是导致训练作业失败的
头号缘故原由
。
其他常见导致使命失败的错误包罗:
GPU死机
GSP超时
NVLink严重错误
显存隔离失败
别光担心显存
:
大型AI集群运维中,
GPU芯片本身和NVLink连接
才是故障高发区,比显存标题频繁得多。
GSP是个坑
:
新一代GPU的GSP虽然计划初衷良好,但目前稳定性堪忧,一失事就是大事。
小错会引爆
:
PMU通信错误看似不起眼,却极易引发致命错误,必须高度鉴戒。
NVLink很“娇气”
:
NVLink错误非常频繁,好在大多数能被系统吸收,但仍有不少会导致使命失败。
内存容错真有用
:
A100/H100 的显存自愈技术(换行+隔离)显著镌汰了因显存标题导致的宕机。
运维重点建议
:
应优先关注:
GPU硬件健康
GSP状态
PMU通信
NVLink错误率
MMU错误
显存
监控
紧张,但相对压力较小。
真实大型集群的数据告诉我们:
AI算力的“心脏”(GPU芯片)和“血管”(NVLink)比“堆栈”(显存)更容易出标题。尤其是新一代的“管家”(GSP)和不起眼的“电线”(PMU)最容易引发大故障。
理解这些规律对于建设和维护超大规模AI训练集群至关紧张。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复
使用道具
举报
返回列表
浏览过的版块
人工智能
Java
.Net
后端开发
丝
+ 我要发帖
×
登录参与点评抽奖,加入IT实名职场社区
去登录
微信订阅号
微信服务号
微信客服(加群)
H5
小程序
快速回复
返回顶部
返回列表