使用llama.cpp举行Qwen2.5-3B模型的转换、量化、推理

诗林 · 2025-3-29 23:40:47

1.llama.cpp情况安装

拉取项目

git clone https://github.com/ggerganov/llama.cpp

复制代码

进入目次

cd llama.cpp

复制代码

CUDA 版本编译

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

复制代码

该过程需要等待一段时间
2.模型文件转换

魔搭社区拉取模型文件

git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git

复制代码

进入到llama.cpp文件夹下，举行模型文件转换，将safetensor格式转换为gguf格式

python ./convert_hf_to_gguf.py /mnt/workspace/Qwen2.5-3B-Instruct/ --outfile /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf

复制代码

转换后默以为半精度FP16类型
3.模型量化

进入到llama.cpp的build/bin目次下，执行命令

./llama-quantize /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf /mnt/workspace/Qwen2.5-3B-int4.gguf q4_0

复制代码

执行完毕后将FP16类型量化为int4类型的模型

可以看到，量化后的模型巨细为1.7G，显著降落
4.模型推理

./llama-cli -m /mnt/workspace/Qwen2.5-3B-int4.gguf --color -c 512 -b 64 -n 256 -t 12 -i -r "助手:" -p "你是人工智能助手" -cnv

复制代码

还有很多参数可选

也可以举行API的部署

./llama-server -m /mnt/workspace/Qwen2.5-3B-int4.gguf --port 8080

复制代码

启动一个api，运行在8080端口
颠末量化后的模型通过llama.cpp举行推理和部署时候，发现比自行盘算所占的显存还要小，有了解的朋侪贫苦指点下

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

使用llama.cpp举行Qwen2.5-3B模型的转换、量化、推理

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云