服务器GPU温度过高挂掉排查记录Unable to determine the device handle for ...

打印 上一主题 下一主题

主题 533|帖子 533|积分 1599

服务器GPU挂掉

跑深度学习的代码的时候发现中断了。通过命令检察:
  1. nvidia-smi
复制代码
表现
  1. Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。
复制代码
感觉很莫名其妙。通过重启大法之后,又能用一段时间。
  1. shutdown -r now
复制代码
但是过了一个小时左右又会挂掉。不能从根本解决题目。那么到底为什么GPU会自己挂掉呢?
题目排查

通过检察日志定位错误原因:
  1. nvidia-bug-report.sh
复制代码
在当前目录下天生了nvidia-bug-report.log日志文件。检察到日志文件的内容如下:

网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源题目,要么是温度过高题目。

重现题目,检察温度日志

如果判断是否是GPU温度过高呢?必要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:
  1. nvidia-smi
  2. -q -l 2 -d TEMPERATURE -f nvidiatemp.log
复制代码
代码继续跑,等待题目重现后检察温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,检察温度日志:

上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目的温度(GPU比较合适的温度)。
找到题目了!就是温度过热导致GPU掉线!
解决题目

温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。推测大概是谁人风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开辟现转轴有点杂质,增大了风扇阻力,清算了一下,上了点润滑油。(固然直接换风扇最为方便!!!免得担心风扇被拆坏掉)

装上后发现能正常工作,温度再也没有超负荷过!题目美满解决!
参考链接

gpu-has-fallen-of-the-bus

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

温锦文欧普厨电及净水器总代理

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表