勿忘初心做自己 发表于 2024-11-24 07:39:10

多显卡服务器安装显卡驱动导致重启黑屏踩坑(已办理)

一些没用的背景描述(非问题办理部分可跳过):

购买的某大牌塔式服务器,刚用不到三个月(好吧因为懒其实也没咋用),系统莫名其妙死机,去检查了服务器发现有块硬盘闪黄灯,因为我是装了三块硬盘此中一块做冗余。但是不太明确怎么回事就直接按电源键逼迫重启了服务器,后来我才明确服务器不能直接按电源键逼迫重启不然会损坏文件甚至硬件QAQ...重启无果,我接洽了服务器厂商,商家来说是硬盘的问题有块硬盘坏了换个新的就好了(好在是免费),效果他过来给我换了新的照旧不可。在服务器主机开机按钮下面的ID指示灯亮黄色,就阐明系统有bug。我就问换硬盘的师傅效果他说他也不会...无奈我只能接洽商家说换了硬盘照旧有问题干脆重装一下系统吧,因为其时系统是买的时候让商家定制好的。
然后就等来了给我装服务器的老哥(这哥们居然比我还小一岁我不由得心生佩服),来了之后嘎嘎就给我装上了当前的ubuntu18.04,但是开机后ID灯好像照旧亮黄色但是感觉没啥影响了,我应该也没问老哥为啥照旧黄灯。后来系统开机之后我很开心就没再思量这个问题了,后来打电话问才知道电源线少插了一根(双电源接入,牛不牛)。故事到这里,题主的驱动安装苦逼路由此睁开...
根本环境与问题描述:

服务器配置:

2张A100,一张进步分辨率用显卡(GF119),530-8i PCIe,8T 3.5硬盘三块,4口千兆,8*64GB DDR4
补:进步分辨率用的显卡是从其他主机上拆下来的,后面是导致显卡驱动不停装不好的问题根源...
系统:ubuntu 18.04 Linux

问题:

题主搞深度学习,必要先装显卡显卡驱动,才能配后面的CUDA+anaconda环境,
1.从ubuntu自带的软件更新-附加驱动-选择最高版本的driver(注意不带server)安装——重启后黑屏
https://i-blog.csdnimg.cn/blog_migrate/f14e138ff1f17a07e538d36caba55165.png
2.下令行直接装-重启——黑屏
方法:输入
ubuntu-drivers devices
会列出一堆driver,这个时候选择最高版本的nvidia-driver-xxx即可,输入
sudo apt-get install nvidia-driver-xxx
等待安装完毕,重启
3.NVIDIA官网下载本服务器显卡对应的驱动,题主在这里下载的是.run文件,按照配置过程装完,输入nvidia-smi可以看到安装成功,但是重启后黑屏
https://i-blog.csdnimg.cn/blog_migrate/aff688e65b06681b605e3ce0dc5670c4.png
这里的详细步骤可参考
链接:https://blog.csdn.net/huiyoooo/article/details/128015155
但是这种办法
实验了三种办法的题主此时已经快要黑化了,特殊是第三种都已经可以打开终端查到安装的驱动,于是题主开始反思安装失败的原因,三种方法都安装过不同版本的驱动,但无一破例都黑屏,这阐明并不肯定是驱动版本的问题,于是题主开始对黑屏进行检查
办理措施

每次安装完,默认重启后的黑屏如下
https://i-blog.csdnimg.cn/blog_migrate/71aff5a3d59faaea365dd1b47b3e1e1f.jpeg
按ctrl+alt+F2(F1-F6都可以试试,不同电脑快捷键不一样)进入tty模式
https://i-blog.csdnimg.cn/blog_migrate/3481dbb67f38c949d358716160814edf.png
输入账号密码后,进入如下界面
https://i-blog.csdnimg.cn/blog_migrate/6eeef03a1eb240ac8a25d9ae658a469f.jpeg
输入reboot重启,等待开机过程狂按 shift(切记肯定要狂!),进入高级选项,选择recovery模式,root,假如是根据方法一和方法二安装的驱动,输入下令
sudo apt-get remove nvidia*
重启即可正常进入。假如是按照方法三安装的,则必要按照这个方法规复进入系统
本文链接:ubuntu20.04禁用nouveau后黑屏的办理办法_ubuntu20.04关闭nouveau-CSDN博客
但是,这么做,无一破例,安装的驱动全部被卸载的干干净净,也就是所做的一切都前功尽弃,有什么办法能不卸载还能进入呢?
题主自习回想安装的过程,本服务器是有多张显卡,此中的进步分辨率用显卡(GF119)是从其他呆板拔下来直接装在这个服务器上,而这台服务器是题主实现让商家打包配置好的,那么问题很有可能出现在这里,也就是说这张显卡可能必要其他版本的驱动,和服务器本身的显卡驱动不同等,导致安装的驱动不兼容。
于是题主就一顿操作把这张显卡给拆下来
https://img-blog.csdnimg.cn/direct/90698f13a078439da0ba47c74afb1121.png

拆下之后,再次重装驱动,果不其然,成功进入系统的,但这个时候分辨率不但不高,而且整个系统变得奇卡务必,甚至移动鼠标都困难,而且,系统莫名其妙的卡在了这个界面
https://i-blog.csdnimg.cn/blog_migrate/a04845c81210693e5529b973c75b3eca.jpeg
乍一看没什么问题,但是点击用户,输入密码后,系统再次回到这个界面——无穷月读???
但是仔细的题主发现这里有个设置按钮,点击后出现了三个选项,分别是ubuntu for wayland ,gnome ,gnome xxx(想不起来了)选择ubuntu for wayland,不测的进入了主界面
https://i-blog.csdnimg.cn/blog_migrate/156c6bbf48b9c5c347d198bdbdacec36.jpeg
但是这个时候系统依然是巨卡无比,固然驱动是装好了,但是分辨率低还卡,要怎么办理呢?既然我刚刚拆了一块进步分辨率的显卡,那把这块显卡再装上不就好了?于是到这里,灵活的题主就以为自己历经千辛万苦终于办理了问题,比及满心期待的把这块显卡装回去——再次进入黑屏模式......
但是题主并没有放弃,就犹如打不死的小强,固然重启后依然黑屏,但是进入tty模式后,依然可以通过下令来控制系统,那么题主的骚操作就来了,假如在这里输入nvidia-smi是能查到驱动版本的,先输入reboot重启,等待开机过程狂按 shift,进入高级选项,选择recovery模式
https://i-blog.csdnimg.cn/blog_migrate/c844f5f2673a5cc7f7433297058066ba.jpeg
题主这里有两个版本的linux和recovery模式,分析了一下应该是装了两个版本的内核,但是经过试验无论选择哪个终极进入的都是同一个界面,所以不影响。选择第一个5.4.0-150-generic (recovery mode),点击resume,神奇的一幕发生了——服务器进入了主界面!!!
https://i-blog.csdnimg.cn/blog_migrate/2662b2a3728d822a2b47d6b0574451d4.jpeg
但是进入后界面分辨率变得特殊低,于是我打开了设置-设别-显式,发现这里是辨认为未知的display。什么环境??我就装了一个驱动而已怎么就未知了??
https://i-blog.csdnimg.cn/blog_migrate/f4f8bd9e9b66226b8e509368ece90cd7.png
题主实验了用xrandr下令修改分辨率,但是报错Failed to get size of gamma for output default,而且xrandr相干的一系列下令都无法使用。
但是题主并没有放弃,找到了这个办法,
原文链接:ubuntu安装后分辨率只有一个选项_vmware ubuntu16.04 只有一个分辨率-CSDN博客
打开:/etc/default/grub文档后修改分辨率,重启,重启照旧要狂按shift进入recovery模式再点击resume才能进入系统,这个时候,系统的界面规复了1920*1080!!!
https://i-blog.csdnimg.cn/blog_migrate/425567ebedd2addaccbc4d294e31a5be.png


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 多显卡服务器安装显卡驱动导致重启黑屏踩坑(已办理)