qidao123.com技术社区-IT企服评测·应用市场
标题:
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
[打印本页]
作者:
笑看天下无敌手
时间:
2025-2-12 08:06
标题:
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
openeuler24.03 lts sp1 安装Nvidia驱动踩坑
网上找到的文档步骤(不要操作,仅展示题目所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree
题目排查
kernel版本缘故原由,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r
复制代码
直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
复制代码
解决题目
安装精确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
yum install vulkan-loader -y
复制代码
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
这里安装驱动和toolkit,其他取消勾选
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令题目排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc
复制代码
在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
留意,由于我实验了多次,以是NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env[2].value=nvidia \
--set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env[3].value=true \
--set driver.enabled=false \
--set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operator
复制代码
pods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
[code]cat
欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)
Powered by Discuz! X3.4