ToB企服应用市场:ToB评测及商务社交产业平台

标题: Cuda与Torch设置(For 集群服务器)超详细步骤 [打印本页]

作者: 雁过留声    时间: 2024-7-26 22:56
标题: Cuda与Torch设置(For 集群服务器)超详细步骤
每次设置模子环境,无论是在windows,linux,集群服务器上都会在这里卡一段,为了未来设置方便,记录下设置注意事项
设置cuda和torch主要有几个要点,分别是:
1. 显卡与驱动(NIVIADA driver)是否适配

On Linux/OS X:
  1. nvidia-smi
复制代码
效果形式一般为:
  1. +-----------------------------------------------------------------------------+
  2. | NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
  3. |-------------------------------+----------------------+----------------------+
  4. | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
  5. | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
  6. |                               |                      |               MIG M. |
  7. |===============================+======================+======================|
  8. |   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
  9. | N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
  10. |                               |                      |             Disabled |
  11. +-------------------------------+----------------------+----------------------+
  12.                                                                               
  13. +-----------------------------------------------------------------------------+
  14. | Processes:                                                                  |
  15. |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
  16. |        ID   ID                                                   Usage      |
  17. |=============================================================================|
  18. |  No running processes found                                                 |
  19. +-----------------------------------------------------------------------------+
复制代码
NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 是适配的即可,不然必要重新安装driver。
2. cuda版本与显卡(gpu)是否适配。

查询Compute Capability (CUDA SDK support )
步骤为:

3. cuda是否与driver适配

On Linux/OS X:
  1. nvidia-smi
复制代码
效果形式一般为:
  1. +-----------------------------------------------------------------------------+
  2. | NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
  3. |-------------------------------+----------------------+----------------------+
  4. | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
  5. | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
  6. |                               |                      |               MIG M. |
  7. |===============================+======================+======================|
  8. |   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
  9. | N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
  10. |                               |                      |             Disabled |
  11. +-------------------------------+----------------------+----------------------+
  12.                                                                               
  13. +-----------------------------------------------------------------------------+
  14. | Processes:                                                                  |
  15. |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
  16. |        ID   ID                                                   Usage      |
  17. |=============================================================================|
  18. |  No running processes found                                                 |
  19. +-----------------------------------------------------------------------------+
复制代码
注意: 此表中表现的 CUDA 版本并不表示您的体系上现实安装了 CUDA 工具包这仅表明您的图形驱动步伐兼容的最新版本的 CUDA。一般下载这个版本的cuda就对了。
3. pytorch安装

一般安装步骤:
  1. conda install pytorch torchvision torchaudio cudatoolkit=11.8
复制代码
一般linux/windows这样就没题目了,但是,由于我使用的是集群服务器,环境设置与模子训练(gpu)不在同一个节点,这样会直接安装为cpu版本的pytorch。同时集群里有cuda11.9module,我是不消下载cudatoolkit的。
检查一下:
  1. $ conda list pytorch
  2. pytorch                   2.0.0               py3.9_cpu_0    pytorch
  3. pytorch-mutex             1.0                         cpu    pytorch
  4. cudatoolkit               11.1.1              heb2d755_10    conda-forge
复制代码
果然是cpu版本呢。于是我起首卸载了原来版本的torch(或者重新创建环境)。然后手动安装下载wheel,在官方网站可下载。
cu开头的就是gpu版本啦

同时下载对应版本的torchvision:

这里我一开始下了cu118/torchvision-0.16.1%2Bcu118-cp311-cp311-win_amd64.whl,但是torchvision0.16和torch2.0不兼容,所以还要注意torch和torchvision匹配题目
然后传到服务器文件夹里,在conda环境pip安装即可。
我在gpu节点测cuda一直false的原因就是torch和torchvision不匹配,torchvision后装把前面装的pytorch覆盖了重装了cuda12.1的版本,导致无法与GPU兼容。
4.测试与运行

这之后应该就可以正常运行了gpu了,测试gpu的pbs文件:
  1. #!/bin/bash#PBS -N yolov5_train#PBS -l nodes=1:ppn=1:gpus=1#PBS -l walltime=1:00:00#PBS -o yolov5_train.out#PBS -e yolov5_train.err#PBS -A your_account#PBS -V#PBS -q gpu# 使用GPU前必须启动export PATH=/usr/local/cuda-11.8/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH# 查看cuda版本nvcc --version# Display GPU informationnvidia-smi
  2. conda init bashsource ~/.bashrcconda activate checkcuda2# Check if CUDA is available using Pythonpython -c "import torch; print(torch.__version__)"python -c "import torch; torch.zeros(1).cuda()"python -c "import torch; print(torch.version.cuda)"python -c "import torch; print(torch.cuda.is_available())"conda deactivate
复制代码
参考



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4