大模子条记之-Llama-3.1-405B-Instruct-FP8离线部署[8*A800] 基于vLLM 版本 ...

打印 上一主题 下一主题

主题 556|帖子 556|积分 1668

提示:文章写完后,目次可以主动生成,怎样生成可参考右边的资助文档
  
  

前言

感谢:星鸾云提供8卡A800测试情况,本次部署教程均在星鸾云平台完成
邀请链接:https://xl.hzxingzai.cn/register?invitation_code=8707231444
Meta 的新一代开源大语言模子
vllm Blog:https://blog.vllm.ai/2024/07/23/llama31.html
一、硬件情况

GPU:A800 80GB PCIe * 8 卡
CPU:112 核
内存:880 G
二、软件情况

Python:Miniconda
CUDA Version:12.3
三 . 模子下载



  • 利用魔搭下载脚本
  1. #1.安装依赖
  2. pip install modelscope
  3. #2.新建download.py 填入下面文件
  4. from modelscope import snapshot_download
  5. model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8',cache_dir='/user/data/model')
  6. #3.开始下载
  7. python download.py
复制代码
1.情况准备

新建 conda虚拟情况

  1. conda create -n llama405 python=3.10
  2. conda activate llama405
复制代码
安装vLLM

  1. pip install -U vllm
  2. #清华源加速 -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
  1. ### 启动脚本
  2. ## 环境检查
  3. ```bash
  4. pip freeze | grep vllm
  5. vllm==0.5.3.post1
  6. vllm-flash-attn==2.5.9.post1
复制代码
启动下令

  1. python -m vllm.entrypoints.openai.api_server
  2. --host 0.0.0.0
  3. --port 8000
  4. --gpu-memory-utilization 0.99
  5. --max-model-len=16384
  6. --served-model-name Llama-3.1-405B-Instruct-FP8
  7. --model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8
  8. --kv-cache-dtype fp8_e4m3
  9. --trust-remote-code
  10. --tensor-parallel-size 8
复制代码
  1. python -m vllm.entrypoints.openai.api_server
  2. --host 0.0.0.0
  3. --port 8000
  4. --gpu-memory-utilization 0.99
  5. --max-model-len=16384
  6. --served-model-name Llama-3.1-405B-Instruct-FP8
  7. --model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8
  8. --kv-cache-dtype fp8_e4m3
  9. --trust-remote-code
  10. --tensor-parallel-size 8
复制代码
启动日志截取




FP8 量化丧失


对接到fastgpt



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我可以不吃啊

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表