温锦文欧普厨电及净水器总代理 发表于 2024-6-29 11:11:14

服务器GPU温度过高挂掉排查记录Unable to determine the device handle for

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令检察:
nvidia-smi
表现
Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。
感觉很莫名其妙。通过重启大法之后,又能用一段时间。
shutdown -r now
但是过了一个小时左右又会挂掉。不能从根本解决题目。那么到底为什么GPU会自己挂掉呢?
题目排查

通过检察日志定位错误原因:
nvidia-bug-report.sh
在当前目录下天生了nvidia-bug-report.log日志文件。检察到日志文件的内容如下:
https://img-blog.csdnimg.cn/direct/2bc36a8dfe0440419e23398b100fa4f6.jpeg
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源题目,要么是温度过高题目。
https://img-blog.csdnimg.cn/direct/99125333e9ce445db970c236be10efe2.jpeg
重现题目,检察温度日志

如果判断是否是GPU温度过高呢?必要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:
nvidia-smi
-q -l 2 -d TEMPERATURE -f nvidiatemp.log 代码继续跑,等待题目重现后检察温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,检察温度日志:
https://img-blog.csdnimg.cn/direct/5825b648c3424fa8932764e30b9471be.png
上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目的温度(GPU比较合适的温度)。
找到题目了!就是温度过热导致GPU掉线!
解决题目

温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。推测大概是谁人风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开辟现转轴有点杂质,增大了风扇阻力,清算了一下,上了点润滑油。(固然直接换风扇最为方便!!!免得担心风扇被拆坏掉)
https://img-blog.csdnimg.cn/direct/0d5ceb2d59eb491f997f1d488a1f47fd.jpeg
装上后发现能正常工作,温度再也没有超负荷过!题目美满解决!
参考链接

gpu-has-fallen-of-the-bus

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 服务器GPU温度过高挂掉排查记录Unable to determine the device handle for