linux-【Atlas 800 训练服务器（型号：9000）商用版驱动固件CANN】昇腾8*Ascend 9

拉不拉稀肚拉稀 发表于 2024-6-15 03:55:03

【Atlas 800 训练服务器（型号：9000）商用版驱动固件CANN】昇腾8*Ascend 9

20240516更新

我安装的版本不停不能多卡推理，让官方工作人员给我了商用版驱动固件CANN
和在昇腾官网上选择的型号后出现的都不一样
驱动、固件、toolkit、kernels
终极双卡推理baichuan2-14B-Chat成功
https://img-blog.csdnimg.cn/direct/ab07dd9d932a4b72bb3dceabb98208a5.png
910b对应驱动

体系内核版本：5.10.0-60.18.0.50.oe2203.aarch64（华为对centos的优化版）
新体系需要先安装依赖
yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran python3-devel
https://img-blog.csdnimg.cn/direct/b7abd9092dd34c0da03bdfd02380bfe5.png
这是官方保举的驱动 Ascend-hdk-910b-npu-driver_23.0.rc3_linux-aarch64.run
https://img-blog.csdnimg.cn/direct/8d08d4644618404581a42e9197a1589c.png
重启要警惕，偶然候体系会崩，华为只能安装对应的内核才气安装驱动，遥遥领先
https://img-blog.csdnimg.cn/direct/fc5b8f021d354a8aac95cf3a81239f99.png
我无法安装，报错cmi module initialize failed. ret is -8005
这个报错网上只有两种办理方案，一个是由于内核版本问题导致，一个是驱动导致
！！！！！千万不要降低或升高内核版本！！！！！

在这里查看对应体系以及内核—昇腾内查对照表
本人已实验过6种体系，在装体系的时候对应好内核版本一步到位才是最优解
昇腾驱动和固件社区资源下载中心：Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run
https://img-blog.csdnimg.cn/direct/dc31fa2fedcb45228839ebc24afbde10.png
以是910B不能安装910B的驱动吗？查看了合同，确定芯片是8*Ascend 910 B，但是服务器型号是A800 (Model 9000)(OEM)(通用版)，在社区资源下载中心表现这个型号的服务器的确只能装910的驱动，后面910B对应的算子是无法使用的，以是很矛盾，910B的芯片只能装910的驱动，切不能使用910B的算子
官网表现的两个安装包均无法安装成功

mindspore官网：https://www.mindspore.cn/install/
https://img-blog.csdnimg.cn/direct/d3559358de774c35b138e85a992444c5.png
颠末清除法测试，2.2.0版本可成功安装，不会报错，遥遥领先
颠末清除法测试，对应toolkit为Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run
pip install mindspore==2.2.0
https://img-blog.csdnimg.cn/direct/61ab8fbdbc20458e9e5f95cbd9cf62e2.png
UserWarning: The value of the smallest subnormal for <class 'numpy.float64'> type is zero.
setattr(self, word, getattr(machar, word).flat)
UserWarning: The value of the smallest subnormal for <class 'numpy.float32'> type is zero.
setattr(self, word, getattr(machar, word).flat)
这两个警告不影响步伐运行，但是看着也烦，办理方案就是降低numpy版本（这里必须从conda安装，不能pip安装）
conda install numpy==1.21.2 scipy==1.7.3 pandas==1.3.3
https://img-blog.csdnimg.cn/direct/931892c4899c40c3a6f45a0102b06006.png
这下就完全没有警告和什么杂七杂八的日记了
安装torch

pip3 install torch==2.1.0
pip install torchvision==0.16.0
wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc3-pytorch2.1.0/torch_npu-2.1.0rc1-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
pip3 install torch_npu-2.1.0rc1-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
pip install setuptools==41.2.0
python3 -c "import torch;import torch_npu;print(torch_npu.npu.is_available())"
tokenizers==0.15.0，原因如下
https://img-blog.csdnimg.cn/direct/218cedeaf00642aeb88d10ff5cd34e85.png
混淆精度apex编译时，先更新python3-devel，再指定版本
sudo yum install python3-devel
bash scripts/build.sh --python=3.9
再验证一下向量盘算
python3 -c "import torch;import torch_npu; a = torch.randn(3, 4).npu(); print(a + a);"
https://img-blog.csdnimg.cn/direct/8999076ec3034fa7b663bff5f5ee544d.png
Warning: Device do not support double dtype now, dtype cast repalce with float.
就算是设置
torch.set_default_dtype(torch.float32)
也没有用，报警依然存在
这个就没办法了，openai说训练模子时精度不能损失，推理可以损失，但是可能华为觉得都可以损失

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

【Atlas 800 训练服务器（型号：9000）商用版驱动固件CANN】昇腾8*Ascend 9