Ubuntu server 20.04 安装nvidia驱动和cuda

火影  金牌会员 | 2024-7-31 13:16:36 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 653|帖子 653|积分 1959

参考文章:【2022新教程】Ubuntu server 20.04如何安装nvidia驱动和cuda-解决服务器ssh一段时间后连不上的题目 - Lukea - 博客园 (cnblogs.com)

1 安装nvidia驱动

1.1 查看是否安装了gcc

  1. gcc -v
复制代码
 若没有安装,则输入下面的下令,直接把包括gcc在内很多开发工具包一同安装
  1. sudo apt-get install build-essential
复制代码
1.2 禁用nouveau驱动

编辑 /etc/modprobe.d/blacklist-nouveau.conf 文件,添加以下内容:
  1. blacklist nouveau
  2. blacklist lbm-nouveau
  3. options nouveau modeset=0
  4. alias nouveau off
  5. alias lbm-nouveau off
复制代码
 关闭nouveau:
  1. echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
复制代码
完成后,重新天生内核并重启:

  1. sudo update-initramfs -u
  2. sudo reboot
复制代码

重启后,执行:lsmod | grep nouveau。如果没有屏幕输出,说明禁用nouveau成功。否则,应重新执行第1.2小节

1.3 安装驱动

使用下令ubuntu-drivers devices获取可用驱动信息,如果下令不存在本身安装一下。
输出为(不同电脑依据配置输出不同,我这里还有报错但是不影响)

从上述信息中找到driver,背面找recommend,发现了系统保举安装的驱动步伐nvidia-driver-550-server-open。这里思量到是ubuntu server,以是我最终选择了nvidia-driver-470-server。
执行下令安装驱动:
  1. sudo apt install nvidia-driver-550-server-open
复制代码

等候安装完成后,执行
  1. nvidia-smi
复制代码
可以输出gpu监控界面,则驱动安装成功!从监控信息中我们可以看到cuda版本是12.4,以是下面我们安装cuda toolkit的时候也是安装这个版本的。
  1. nvidia-smi
  2. Thu Apr  4 21:30:29 2024
  3. +-----------------------------------------------------------------------------------------+
  4. | NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
  5. |-----------------------------------------+------------------------+----------------------+
  6. | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
  7. | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
  8. |                                         |                        |               MIG M. |
  9. |=========================================+========================+======================|
  10. |   0  NVIDIA GeForce RTX 3060        Off |   00000000:01:00.0  On |                  N/A |
  11. |  0%   33C    P8              9W /  170W |      57MiB /  12288MiB |      0%      Default |
  12. |                                         |                        |                  N/A |
  13. +-----------------------------------------+------------------------+----------------------+
  14. +-----------------------------------------------------------------------------------------+
  15. | Processes:                                                                              |
  16. |  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
  17. |        ID   ID                                                               Usage      |
  18. |=========================================================================================|
  19. |    0   N/A  N/A       951      G   /usr/lib/xorg/Xorg                             36MiB |
  20. |    0   N/A  N/A      1186      G   /usr/bin/gnome-shell                            6MiB |
  21. +-----------------------------------------------------------------------------------------+
复制代码
  如果 nvidia-smi 出现如下情况:
  WIDIA-SMI has failed because it couldn't comunicate with the NvIDIA driver, Make sure that the latest NviDIA driver is installed and runing.
  而且通过 ll /usr/src/ 检查驱动已经成功安装:
  

  有可能是必要重新启动才气正常毗连。
  
2 安装cuda

在https://developer.nvidia.com/cuda-toolkit-archive中找到相应的版本。这里我们选用12.4的版本,采取runfile的安装形式。
直接输入以下下令:
  1. sudo wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run
复制代码

  1. sudo sh cuda_12.4.0_550.54.14_linux.run
复制代码
注意,当提醒你已经安装了driver的时候,直接continue。当选择安装内容的时候,务必把driver前面的x取消掉,由于我们已经安装了驱动!!!

安装完成后,会有如下警告:
  1. ===========
  2. = Summary =
  3. ===========
  4. 
  5. Driver:   Not Selected
  6. Toolkit:  Installed in /usr/local/cuda-12.4/
  7. 
  8. Please make sure that
  9. -   PATH includes /usr/local/cuda-12.4/bin
  10. -   LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as root
  11. 
  12. To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
  13. ***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 550.00 is required for CUDA 12.4 functionality to work.
  14. To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
  15. sudo <CudaInstaller>.run --silent --driver
  16. 
  17. Logfile is /var/log/cuda-installer.log
复制代码
这是正常的,由于安装的时候没有选择驱动,随后必要将情况变量举行配置。
  1. export PATH=/usr/local/cuda-11.8/bin:$PATH  
  2. export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH
  3. export CUDA_HOME=/usr/local/cuda
复制代码
使用nvcc -V查看CUDA版本 ,能显示就表示成功了。
  1. nvcc: NVIDIA (R) Cuda compiler driver
  2. Copyright (c) 2005-2024 NVIDIA Corporation
  3. Built on Tue_Feb_27_16:19:38_PST_2024
  4. Cuda compilation tools, release 12.4, V12.4.99
  5. Build cuda_12.4.r12.4/compiler.33961263_0
复制代码
  如果使用nvcc -V时,出现 Command 'nvcc' not found, but can be installed with:
sudo apt install nvidia-cuda-toolkit,可能是情况变量没有配置到位。
  1、 查看cuda的bin目次下是否有nvcc:
  1. cd /usr/local/cuda/bin
复制代码
2、 如果存在,直接将cuda路径加入系统路径即可:
  1. #进入配置文件
  2. vim ~/.bashrc
复制代码
将如下情况变量添加到文件末端
  1. export PATH=/usr/local/cuda-版本/bin:$PATH  
  2. export LD_LIBRARY_PATH=/usr/local/cuda-版本/lib64:$LD_LIBRARY_PATH
  3. export CUDA_HOME=/usr/local/cuda
复制代码
3 、更新配置文件即可:
  1. source ~/.bashrc
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

火影

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表