【服务器】问题:训练跑一半显卡掉卡,报错Unable to determine the device ...

打印 上一主题 下一主题

主题 986|帖子 986|积分 2958



训练跑一半显卡掉卡,服务器nvidia-smi报错:
  1. Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error
复制代码
1、使用sudo nvidia-bug-report.sh查看问题log

跑训练时同时运行nvidia-bug-report.sh同步显卡状态和bug信息,从中查找到问题:
  1. Xid (...): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus
复制代码

参考ISSUE大佬提到:
   One of the gpus is shutting down. Since it’s not always the same one, I guess they’re not damaged but either overheating or lack of power occurs. Please monitor temperatures, check PSU.
  大概率是过热、缺电导致的
2、办理方案汇总

(1)显卡温度墙
跑训练时同时运行以下下令,监控显卡温度厘革
nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log

上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目的温度(GPU比较符合的温度)。
如果有过热环境,需要查抄显卡风扇是否正常,使用nvidia-settings设置好风扇转速最大试试

(2)显卡功耗墙

题主双卡1080TI只用了850W的电源(怀疑不敷),设置了一下功耗墙:
sudo vim /etc/systemd/system/nvidia-power-limit.service
  1. 以下内容写入文件
  2. [Unit]
  3. Description=Set NVIDIA GPU Power Limit
  4. [Service]
  5. Type=oneshot
  6. ExecStart=/usr/bin/nvidia-smi -pl 200
  7. [Install]
  8. WantedBy=multi-user.target
复制代码
启用服务在启动时自动应勤奋率限定:
sudo systemctl enable nvidia-power-limit.service
(3)显卡设置双卡持久模式,包管GPU驱动即使没有东西在运行也是处于加载状态,避免驱动频繁加载
PS:GPU默认持久模式关闭的时候,如果负载低会休眠,之后唤起有肯定几率失败。nvidia-smi -pm 1下令可以使GPU一直保持准备工作的状态,跑训练前可调用。
开机自动开持久模式的设置方式:
sudo vim /lib/systemd/system/nvidia-persistenced.service
  1. Change
  2. ExecStart=/usr/bin/nvidia-persistenced --user nvidia-persistenced --no-persistence-mode --verbose
  3. To:
  4. ExecStart=/usr/bin/nvidia-persistenced --user nvidia-persistenced --persistence-mode --verbose
复制代码

(4)更新内核驱动、nvidia驱动及所有可用的更新;
(5)关机,清灰,重新插拔显卡数据线(接触不良、PCI总线问题);
(6)如果上面的方式不管用,拔掉一张显卡,仅保存一张;仅保存另一张(某一张显卡坏了);
(7)更换电源和电源线(功率、电源线老化,确保电源连接稳定,上双电源,确保电源功率满意多卡使用);
(8)更换主板(主板硬件问题)。
PS:根本上是前三个原因导致的,也可能是电源/电源线问题,题主测试了(1)-(4)后就不会报这个错掉卡了,其他原因可以先测完这四个没问题再考虑
参考文章:

   https://blog.csdn.net/weixin_42792088/article/details/134176781
https://blog.csdn.net/qq_44850917/article/details/135431204
https://blog.csdn.net/qq_54478153/article/details/128202846
https://zhuanlan.zhihu.com/p/375331159
https://forums.developer.nvidia.com/t/unable-to-determine-the-device-handle-for-gpu-000000-0-unknown-error/244860
https://forums.developer.nvidia.com/t/gpu-fans-go-to-max-and-graphics-drivers-hang/222069/4
https://blog.dreamforme.top/2023/11/03/%E8%A7%A3%E5%86%B3-Unable-to-determine-the-device-handle-for-GPU-Unknown-Error-%E9%97%AE%E9%A2%98/
https://forums.developer.nvidia.com/t/setting-up-nvidia-persistenced/47986/10
https://cn.linux-console.net/?p=31021
https://blog.csdn.net/RadiantJeral/article/details/104479985

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

惊雷无声

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表