qidao123.com技术社区-IT企服评测·应用市场

标题: 大模型推理:Qwen3 32B vLLM Docker本地部署 [打印本页]

作者: 风雨同行    时间: 4 天前
标题: 大模型推理:Qwen3 32B vLLM Docker本地部署
Qwen3底子知识

此次Qwen3开源8个模型(MOE架构:Qwen3-235B-A22B、Qwen3-30B-A3B,Dense架构:Qwen3 0.6B/1.7B/4B/8B/14B/32B),新版本的Qwen3特性包括:

其中,除Qwen3-235B-A22B和Qwen3-32B之外,另外6个模型是蒸馏模型。
各模型版本的参数:

部署情况


Docker部署

模型下载:

Docker启动命令:
  1. docker run -d --runtime nvidia --gpus 4 --ipc=host -p 8000:8000 -v /root/models:/root/models -e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" --name=Qwen3-32b vllm/vllm-openai:v0.8.5 --model /root/models/Qwen3-32B --trust-remote-code --served-model-name Qwen3-32b --max_num_seqs 10 --tensor-parallel-size 4 --gpu_memory_utilization 0.98  --enforce-eager --disable-custom-all-reduce --enable-auto-tool-choice --tool-call-parser hermes --compilation-config 0 --enable-reasoning --reasoning-parser deepseek_r1 --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' --max-model-len 98304
复制代码
参数解释:

使用方式


其它部署方式


扩展:Qwen3系列模型训练方式


扩展阅读


参考文献



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4