我可以不吃啊 发表于 2024-8-15 08:19:12

大模子条记之-Llama-3.1-405B-Instruct-FP8离线部署[8*A800] 基于vLLM 版本

提示:文章写完后,目次可以主动生成,怎样生成可参考右边的资助文档


前言

感谢:星鸾云提供8卡A800测试情况,本次部署教程均在星鸾云平台完成
邀请链接:https://xl.hzxingzai.cn/register?invitation_code=8707231444
Meta 的新一代开源大语言模子
vllm Blog:https://blog.vllm.ai/2024/07/23/llama31.html
一、硬件情况

GPU:A800 80GB PCIe * 8 卡
CPU:112 核
内存:880 G
二、软件情况

Python:Miniconda
CUDA Version:12.3
三 . 模子下载



[*]利用魔搭下载脚本
#1.安装依赖
pip install modelscope
#2.新建download.py 填入下面文件
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8',cache_dir='/user/data/model')
#3.开始下载
python download.py
1.情况准备

新建 conda虚拟情况

conda create -n llama405 python=3.10

conda activate llama405
安装vLLM

pip install -U vllm
#清华源加速 -i https://pypi.tuna.tsinghua.edu.cn/simple

### 启动脚本

## 环境检查

```bash
pip freeze | grep vllm
vllm==0.5.3.post1
vllm-flash-attn==2.5.9.post1
启动下令

python -m vllm.entrypoints.openai.api_server
--host 0.0.0.0
--port 8000
--gpu-memory-utilization 0.99
--max-model-len=16384
--served-model-name Llama-3.1-405B-Instruct-FP8
--model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8
--kv-cache-dtype fp8_e4m3
--trust-remote-code
--tensor-parallel-size 8

python -m vllm.entrypoints.openai.api_server
--host 0.0.0.0
--port 8000
--gpu-memory-utilization 0.99
--max-model-len=16384
--served-model-name Llama-3.1-405B-Instruct-FP8
--model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8
--kv-cache-dtype fp8_e4m3
--trust-remote-code
--tensor-parallel-size 8

启动日志截取

https://i-blog.csdnimg.cn/direct/610f4deaf6dd44069476c8a92d3ead09.png
https://i-blog.csdnimg.cn/direct/ffbe6ce6c92b4a4dabcc97e80fa8e8cb.png
https://i-blog.csdnimg.cn/direct/a75e532b895e4c06810cae1e8cb6448b.png
FP8 量化丧失

https://i-blog.csdnimg.cn/direct/c74373b511314167bed975ca50c92d36.png
对接到fastgpthttps://i-blog.csdnimg.cn/direct/30f065ad34cc4415bca6ce81f26e7737.png


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 大模子条记之-Llama-3.1-405B-Instruct-FP8离线部署[8*A800] 基于vLLM 版本