openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑

打印 上一主题 下一主题

主题 967|帖子 967|积分 2901

openeuler24.03 lts sp1 安装Nvidia驱动踩坑

网上找到的文档步骤(不要操作,仅展示题目所在)

跟随文档安装时
  1. yum install gcc make kernel-devel
  2. yum install vulkan-loader
  3. chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
  4. ./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree​

题目排查

kernel版本缘故原由,导致安装驱动时报错
使用下面命令查看当前内核版本
  1. uname -r
复制代码
直接使用yum install gcc make kernel-devel​的话,可能安装的版本不一致
可以使用如下命令查看yum​安装的版本
  1. yum list | grep kernel-devel
复制代码

解决题目

安装精确版本,即符合系统当前内核版本的kernel-devel
  1. yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
  1. yum install vulkan-loader -y
复制代码

安装cuda,并添加path

考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议

这里安装驱动和toolkit,其他取消勾选

等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果

nvcc -V命令题目排查

使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
  1. vi ~/.bashrc
复制代码
在文件末尾添加
  1. # cuda
  2. export LD_LIBRARY_PATH=/usr/local/cuda/lib64
  3. export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
  1. source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功

安装gpu-operator

留意,由于我实验了多次,以是NFD是启用的状态,正常安装时,最后的set nfd.enabled=false​应该删除,可以使用下面命令查看NFD是否启用,结果为true​就是启用的状态
  1. kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd​,保险起见,加上了官方文档的参数
  1. helm install gpu-operator -n gpu-operator --create-namespace \
  2.   nvidia/gpu-operator $HELM_OPTIONS \
  3.     --version=v24.9.2 \
  4.     --set toolkit.env[0].name=CONTAINERD_CONFIG \
  5.     --set toolkit.env[0].value=/etc/containerd/config.toml \
  6.     --set toolkit.env[1].name=CONTAINERD_SOCKET \
  7.     --set toolkit.env[1].value=/run/containerd/containerd.sock \
  8.     --set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
  9.     --set toolkit.env[2].value=nvidia \
  10.     --set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
  11.     --set-string toolkit.env[3].value=true \
  12.     --set driver.enabled=false \
  13.     --set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods​是否成功创建
  1. kubectl get pods -n gpu-operator
复制代码
​pods​一般需要3~5分钟,最后完成的状态有running​和completed​,具体耗时和拉取镜像的速度等因素有关

验证gpu-operator是否安装成功

跑一个简单的示例
[code]cat

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

笑看天下无敌手

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表