openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
openeuler24.03 lts sp1 安装Nvidia驱动踩坑网上找到的文档步骤(不要操作,仅展示题目所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run结果报错,提示unable to find kernel source tree
题目排查
kernel版本缘故原由,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
解决题目
安装精确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y不要忘记
yum install vulkan-loader -y
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
https://img2024.cnblogs.com/blog/3561207/202502/3561207-20250210172734107-1772445765.png
这里安装驱动和toolkit,其他取消勾选
https://img2024.cnblogs.com/blog/3561207/202502/3561207-20250210172808114-999164257.png
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令题目排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin应用修改
source ~/.bashrc此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
留意,由于我实验了多次,以是NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env.name=CONTAINERD_CONFIG \
--set toolkit.env.value=/etc/containerd/config.toml \
--set toolkit.env.name=CONTAINERD_SOCKET \
--set toolkit.env.value=/run/containerd/containerd.sock \
--set toolkit.env.name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env.value=nvidia \
--set toolkit.env.name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env.value=true \
--set driver.enabled=false \
--set nfd.enabled=false等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operatorpods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
cat
页:
[1]