ubuntu系统vllm部署deepseek-70B(DeepSeek-R1-Distill-Llama-70B)

打印 上一主题 下一主题

主题 988|帖子 988|积分 2964

设置:8张英伟达H800显卡,硬盘14T,内存 2T;
本次部署显卡驱动和Miniconda都已安装,以是直接从步骤4的创建假造情况开始;nvidia-smi下令检察显卡;
1. 系统更新和依赖安装

  1. # 更新系统包
  2. sudo apt update && sudo apt upgrade -y
  3. # 安装基础依赖
  4. sudo apt install -y build-essential python3-pip curl git wget
复制代码

2. 安装NVIDIA驱动和CUDA Toolkit

  1. # 添加NVIDIA驱动仓库(Ubuntu 22.04默认仓库可能版本较低)
  2. sudo add-apt-repository ppa:graphics-drivers/ppa -y
  3. sudo apt update
  4. # 安装推荐驱动(H800需要535+版本)
  5. sudo apt install -y nvidia-driver-550
  6. sudo reboot  # 重启生效
  7. # 验证驱动安装
  8. nvidia-smi  # 应显示8张H800信息
  9. # 安装CUDA 12.2(需与vLLM兼容)
  10. wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run
  11. sudo sh cuda_12.2.2_535.104.05_linux.run
  12. # 安装时取消勾选驱动(已安装),其他默认
  13. # 添加环境变量
  14. echo 'export PATH=/usr/local/cuda-12.2/bin:$PATH' >> ~/.bashrc
  15. echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
  16. source ~/.bashrc
复制代码

3. 安装cuDNN

  1. # 从NVIDIA官网下载cuDNN 8.9.7 for CUDA 12.x(需注册账号)
  2. # 假设下载到 ~/Downloads/cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
  3. tar -xvf ~/Downloads/cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
  4. sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include/
  5. sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64/
  6. sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
复制代码

4. 设置Python情况

  1. # 安装Miniconda(如未安装)
  2. wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
  3. bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda
  4. echo 'export PATH="$HOME/miniconda/bin:$PATH"' >> ~/.bashrc
  5. source ~/.bashrc
  6. # 创建虚拟环境
  7. conda create -n vllm python=3.9 -y
  8. #启用虚拟环境
  9. conda activate vllm
  10. #启用虚拟环境后,命令行前缀就都会有虚拟环境名称显示(如下)
  11. #(vllm) root@hgx-h800-204:
  12. #退出虚拟环境进入基础环境
  13. #conda deactivate
  14. # 安装PyTorch
  15. pip install torch==2.1.2 --index-url https://download.pytorch.org/whl/cu121
  16. #如果pip下载失败,可以使用如下命令
  17. conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
  18. # 安装vLLM
  19. pip install vllm>=0.4.1  # 确保版本支持H800
复制代码

验证安装

安装完成后,运行以下下令验证PyTorch是否正确安装:
  1. python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
复制代码
假如输出类似以下内容,说明安装乐成:
  1. 2.1.2+cu121
  2. True
复制代码

5. 下载DeepSeek模子

  1. # 安装 ModelScope 包: ModelScope 是一个模型中心,我们使用它来下载模型。在终端或命令提示符中执行以下命令安装 ModelScope Python 包
  2. pip install modelscope
  3. #创建模型存放文件夹
  4. mkdir -p /data/deepseek-ai/models/deepseek-70b
  5. # 例如DeepSeek-R1-Distill-Llama-70B模型
  6. modelscope download --local_dir /data/deepseek-ai/models/deepseek-70b --model deepseek-ai/DeepSeek-R1-Distill-Llama-70B
  7. # 例如deepseek-r1-awq量化模型(该命令为r1向量模型下载命令,该模型启动未验证)
  8. modelscope download --local_dir /data/deepseek-ai/models/deepseek-r1-awq  --model  cognitivecomputations/DeepSeek-R1-awq
复制代码

6. 启动vLLM API服务

  1. # 使用8卡张量并行
  2. python -m vllm.entrypoints.openai.api_server \
  3.   --model ./deepseek-70b \
  4.   --tensor-parallel-size 8 \
  5.   --trust-remote-code \  # 如果模型需要自定义代码
  6.   --gpu-memory-utilization 0.85 \  # 显存利用率
  7.   --served-model-name deepseek-70b  # API中的模型名称
复制代码

7. 测试API接口

  1. # 发送测试请求
  2. curl http://localhost:8000/v1/completions \
  3.   -H "Content-Type: application/json" \
  4.   -d '{
  5.    "model": "deepseek-70b",
  6.    "prompt": "北京的著名景点有",
  7.    "max_tokens": 100,
  8.    "temperature": 0.3
  9.   }'
  10. # 或使用Python客户端
  11. pip install openai
复制代码

  1. from openai import OpenAI
  2. client = OpenAI(base_url="http://localhost:8000/v1")
  3. response = client.completions.create(
  4.   model="deepseek-70b",
  5.   prompt="中国的首都是",
  6.   max_tokens=100
  7. )
  8. print(response.choices[0].text)
复制代码

留意事项


  • 模子兼容性:确保DeepSeek模子的格式与vLLM兼容(HF格式)。
  • 显存分配:67B模子必要约130GB显存,8卡H800(每卡80GB)足够。
  • 安全加固:如需对外开放API,发起设置反向代理和认证。
  • 性能调优:可通过--max-num-seqs和--max-model-len调整吞吐量。
如遇到CUDA版本不匹配等标题,可尝试通过conda install cuda -c nvidia补充依赖。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表