篮之新喜 发表于 2024-7-24 00:20:23

Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实行,本文记录安装过程。

简洁步骤:



[*]打开机箱
[*]将P4显卡插在4号槽位
[*]关闭机箱
[*]安装驱动
https://img-blog.csdnimg.cn/direct/48077777505247858a1661a5e8936b13.jpeg
具体步骤:

对于新手来说,步步为坑,有很多小细节必要留意。
了解硬件情况

起首了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,别的三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要留意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。
我的这台呆板4号槽位还有个插槽掩护部件插在上面,怎么拿下来也是尝试了一小会儿。
第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前必要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把谁人塑料固定件按下去固定显卡。
装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。这是在ESXi主机管理界面,而不是Ubuntu主机里,管理-硬件-PCI设备,然后搜刮p4,就显示出来,选中之后,点击“切换直通”,就设置好了。
如许p4卡的硬件部分就安装完成了!
安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。
重新安装ESXi,然后再创建Ubuntu假造机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。
留意,设为直通后,就要设置“保存内存”选项,也就是设置了多少内存就要保存多少内存,否则假造机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客


P4驱动安装

安装驱动比力顺手了,先
从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:
报错:couldn't communicate with the NVIDIA

利用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,
利用 ubuntu-drivers 安装驱动

执行:
sudo ubuntu-drivers devices # 查看可以装的驱动
sudo ubuntu-drivers autoinstall  # 安装驱动
结果还是显示无法与nvidia驱动通信....

利用dkms安装驱动

网上发起用dkms安装驱动,执行:
sudo apt install dkms
sudo dkms install -m nvidia -v 525.147.05
如许由dkms安装驱动,非常简单方便。我记得这里的驱动必要从前面sudo ubuntu-drivers devices显示的驱动里面选。
安装驱动的时候提示重启之后必要密码验证。(我没看见验证啊)

问题没有解决。
apt install安装驱动

先看有哪些驱动
sudo nvidia-drivers device
vendor   : NVIDIA Corporation
model    : GP104GL
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后利用apt安装:sudo apt install nvidia-driver-470-server
apt 安装也还是不可。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted
ubuntu 已经说了保举nvidia-driver-470,再来一次:
sudo apt install nvidia-driver-470
照旧。
实在上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!
设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin利用 - 哔哩哔哩 (bilibili.com)讲到“是否为此假造机启用 UEFI 安全引导” 这里要关掉。
关掉试试,再执行nvidia-smi,哇,成功拉!
安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引举行pip或conda安装,AI训练环境搞定!
如果飞桨碰到“libstdc++.so.6: version 'GLIBCXX_3.4.30' not found”报错,利用
conda install -c conda-forge gcc=12.2.0 -y 解决问题。

总结

利用ESXi假造机在Ubuntu安装P4计算卡有几个留意的细节:
1 ESXi里假造机ubuntu的内存设置里必要勾选“保存内存”
2 在ESXi里设置P4计算卡为“直通”
3 ESXi里假造机ubuntu的启动设置里关闭“是否为此假造机启用 UEFI 安全引导”
别的地方就跟我们平常利用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡