服务器中 安装 NVIDIA 驱动

打印 上一主题 下一主题

主题 1961|帖子 1961|积分 5883

运行代码
  1. nvidia-smi
复制代码
输出:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
阐明:
检测到了 NVIDIA 显卡硬件,但无法和它通讯,通常是因为:
   NVIDIA 驱动没有精确安装或未运行。
  1. 检察自己的系统是 Ubuntu 还是 CentOS(很紧张)

检察系统名称和版本
  1. cat /etc/os-release
复制代码
 Ubuntu 示例:
   NAME="Ubuntu"
VERSION="20.04.6 LTS (Focal Fossa)"
ID=ubuntu
...
   CentOS 示例:
   NAME="CentOS Linux"
VERSION="7 (Core)"
ID="centos"
...
  我的系统是 
   NAME="CentOS Linux" VERSION="8" ID="centos" ID_LIKE="rhel fedora" VERSION_ID="8" PLATFORM_ID="platform:el8" PRETTY_NAME="CentOS Linux 8" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:centos:centos:8" HOME_URL="https://centos.org/" BUG_REPORT_URL="https://bugs.centos.org/" CENTOS_MANTISBT_PROJECT="CentOS-8" CENTOS_MANTISBT_PROJECT_VERSION="8" , 
  2. 确认是否安装显卡驱动

 bash:
  1. lsmod | grep nvidia
复制代码


  • 有输出 → 阐明驱动已加载
  • 没输出 → 驱动没加载或压根没装
 3. 再看是否有显卡硬件存在:

  1. lspci | grep -i nvidia
复制代码
有输出 → 有显卡
没输出 → 这台服务器根本没有 NVIDIA GPU
我们的服务器输出:
   a1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000]
a1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller
  e1:00.0 VGA compatible controller: NVIDIA Corporation GA102GL [RTX A6000]
e1:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller
 
   阐明:


  • 有两块 NVIDIA RTX A6000 GPU,每块显卡带一个音频模块(00.1 是音频控制器)
  • RTX A6000 是顶级专业显卡,显存高达 48GB
4. 查询系统中是否安装过 NVIDIA 相关包

对于 Ubuntu/Debian 系统:
  1. dpkg -l | grep nvidia
复制代码
对于 CentOS/RHEL 系统:
  1. rpm -qa | grep nvidia
复制代码


  • 假如有输出(如 nvidia-driver-xxx),阐明驱动包存在
  • 假如没输出,阐明系统中大概没有安装任何 NVIDIA 驱动
我运行
  1. rpm -qa | grep nvidia
复制代码
输出:
   pcp-pmda-nvidia-gpu-5.3.1-5.el8.x86_64
   pcp-pmda-nvidia-gpu 是一个 性能监控插件(PMDA),属于 PCP(Performance Co-Pilot)工具,用来监控 GPU 的,但它本身不是驱动
5.安装 NVIDIA 驱动(适用于 CentOS 7/8)

5.1 禁用 Nouveau(开源显卡驱动,防冲突)

  1. sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/disable-nouveau.conf'
  2. # 重新生成内核镜像
  3. sudo dracut --force
  4. # 重启系统(让禁用生效)
  5. sudo reboot
复制代码
5.2 确认 nouveau 被禁用

 重启后,运行:
  1. lsmod | grep nouveau
复制代码


  • 无输出 ✅ 表现 nouveau 已禁用
  • 有输出 ❌ 表现禁用失败,请重新执行第 1 步
5.3 下载并安装 NVIDIA 官方驱动

在欣赏器中访问并下载最新版 .run 文件: NVIDIA 驱动官网


  • 打开官网:Download The Official NVIDIA Drivers | NVIDIA
  •    分类栏位你应该选的内容Product TypeNVIDIA RTX / Quadro ✅(这是最新分类)Product SeriesRTX Series 或 RTX A Series ✅ProductRTX A6000 ✅Operating SystemLinux 64-bit ✅LanguageEnglish (US) 或你风俗的语言
  • 下载 .run 文件(例如:NVIDIA-Linux-x86_64-535.154.05.run)


  • 在你选中的版本(发起第一个 570.133.07)旁边,点击绿色按钮 “View”
  • 然后会跳转到该驱动的详情页
  • 在详情页中你会看到一个绿色的大按钮:
   Download
  4. 点击 Download 就会开始下载 .run 安装文件,大概跳转到一个 .run 文件的直链页面
 5.4 进入纯命令行模式安装

关闭图形界面:
  1. sudo systemctl isolate multi-user.target
复制代码
然后:
  1. chmod +x NVIDIA-Linux-*.run
  2. sudo ./NVIDIA-Linux-*.run
复制代码
安装过程中:


  • 默认全部回车
  • 假如提示要禁用 Nouveau,选择 “Yes”
5.5 重启并验证安装成功

  1. sudo reboot
复制代码
启动后运行:
  1. nvidia-smi
复制代码
假如你的是Ubuntu 系统


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

石小疯

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表