论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
服务器GPU温度过高挂掉排查记录Unable to determine the ...
服务器GPU温度过高挂掉排查记录Unable to determine the device handle for ...
温锦文欧普厨电及净水器总代理
金牌会员
|
2024-6-29 11:11:14
|
显示全部楼层
|
阅读模式
楼主
主题
768
|
帖子
768
|
积分
2304
服务器GPU挂掉
跑深度学习的代码的时候发现中断了。通过命令检察:
nvidia-smi
复制代码
表现
Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error。
复制代码
感觉很莫名其妙。通过重启大法之后,又能用一段时间。
shutdown -r now
复制代码
但是过了一个小时左右又会挂掉。不能从根本解决题目。那么到底为什么GPU会自己挂掉呢?
题目排查
通过检察日志定位错误原因:
nvidia-bug-report.sh
复制代码
在当前目录下天生了nvidia-bug-report.log日志文件。检察到日志文件的内容如下:
网上查找一下这个报错码79https://forums.developer.nvidia.com/t/gpu-has-fallen-of-the-bus/122124发现要么是电源题目,要么是温度过高题目。
重现题目,检察温度日志
如果判断是否是GPU温度过高呢?必要打一个温度日志,再运行一下代码,看GPU温度是否超过了shutdown 温度(GPU温度过高会自动掉线保护GPU)。命令如下:
nvidia-smi
-q -l 2 -d TEMPERATURE -f nvidiatemp.log
复制代码
代码继续跑,等待题目重现后检察温度日志就可以确定是否是温度过高导致GPU自动掉线了。
果然,当GPU掉线后,检察温度日志:
上图中CurrentTemp表示当前温度,Shutdown Temp表示超过这个温度GPU会自动掉线。Target Temp表示目的温度(GPU比较合适的温度)。
找到题目了!就是温度过热导致GPU掉线!
解决题目
温度过热?
多半是散热不行,果然,发现一个风扇明显转的较慢。推测大概是谁人风扇坏掉了。
于是将显卡风扇拆下来。通过拨动发现其中一个风扇没另一个风扇灵活。拆开辟现转轴有点杂质,增大了风扇阻力,清算了一下,上了点润滑油。(固然直接换风扇最为方便!!!免得担心风扇被拆坏掉)
装上后发现能正常工作,温度再也没有超负荷过!题目美满解决!
参考链接
gpu-has-fallen-of-the-bus
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
温锦文欧普厨电及净水器总代理
金牌会员
这个人很懒什么都没写!
楼主热帖
可扩展性对物联网管理系统有哪些影响? ...
如何入门渗透测试
一文详解|影响成长的关键思考 ...
简析XDP的重定向机制
SQL的语法
2 分钟,了解 4 个极为有用的 MetricsQ ...
高校学籍管理系统(SQL Server数据库课 ...
☆常用的Sql语句汇总(DDL/DML) ...
大企业才用的分布式唯一Id,它比GUID好 ...
TypeScript与JavaScript的区别
标签云
挺好的
服务器
快速回复
返回顶部
返回列表