笑看天下无敌手 发表于 2025-2-12 08:06:17

openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑

openeuler24.03 lts sp1 安装Nvidia驱动踩坑

网上找到的文档步骤(不要操作,仅展示题目所在)

跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run结果报错,提示unable to find kernel source tree​

题目排查

kernel版本缘故原由,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r直接使用yum install gcc make kernel-devel​的话,可能安装的版本不一致
可以使用如下命令查看yum​安装的版本
yum list | grep kernel-devel‍
解决题目

安装精确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y不要忘记
yum install vulkan-loader -y‍
安装cuda,并添加path

考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
​https://img2024.cnblogs.com/blog/3561207/202502/3561207-20250210172734107-1772445765.png
这里安装驱动和toolkit,其他取消勾选
https://img2024.cnblogs.com/blog/3561207/202502/3561207-20250210172808114-999164257.png
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果

nvcc -V命令题目排查

使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin应用修改
source ~/.bashrc此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功

安装gpu-operator

留意,由于我实验了多次,以是NFD是启用的状态,正常安装时,最后的set nfd.enabled=false​应该删除,可以使用下面命令查看NFD是否启用,结果为true​就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'确认无误,我这里使用的运行时为containerd​,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
    --version=v24.9.2 \
    --set toolkit.env.name=CONTAINERD_CONFIG \
    --set toolkit.env.value=/etc/containerd/config.toml \
    --set toolkit.env.name=CONTAINERD_SOCKET \
    --set toolkit.env.value=/run/containerd/containerd.sock \
    --set toolkit.env.name=CONTAINERD_RUNTIME_CLASS \
    --set toolkit.env.value=nvidia \
    --set toolkit.env.name=CONTAINERD_SET_AS_DEFAULT \
    --set-string toolkit.env.value=true \
    --set driver.enabled=false \
    --set nfd.enabled=false等待命令执行完毕,查看pods​是否成功创建
kubectl get pods -n gpu-operator​pods​一般需要3~5分钟,最后完成的状态有running​和completed​,具体耗时和拉取镜像的速度等因素有关

验证gpu-operator是否安装成功

跑一个简单的示例
cat
页: [1]
查看完整版本: openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑