使用llama.cpp举行Qwen2.5-3B模型的转换、量化、推理

诗林  论坛元老 | 2025-3-29 23:40:47 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1454|帖子 1454|积分 4362

1.llama.cpp情况安装

拉取项目
  1. git clone https://github.com/ggerganov/llama.cpp
复制代码
进入目次
  1. cd llama.cpp
复制代码
 CUDA 版本编译
  1. cmake -B build -DGGML_CUDA=ON
  2. cmake --build build --config Release
复制代码
 该过程需要等待一段时间
2.模型文件转换

魔搭社区拉取模型文件
  1. git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git
复制代码
进入到llama.cpp文件夹下,举行模型文件转换,将safetensor格式转换为gguf格式
  1. python ./convert_hf_to_gguf.py  /mnt/workspace/Qwen2.5-3B-Instruct/ --outfile /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf
复制代码
 转换后默以为半精度FP16类型
3.模型量化

进入到llama.cpp的build/bin目次下,执行命令
  1. ./llama-quantize /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf /mnt/workspace/Qwen2.5-3B-int4.gguf q4_0
复制代码
执行完毕后将FP16类型量化为int4类型的模型

可以看到,量化后的模型巨细为1.7G,显著降落
4.模型推理

  1. ./llama-cli -m /mnt/workspace/Qwen2.5-3B-int4.gguf --color -c 512 -b 64 -n 256 -t 12 -i -r "助手:" -p "你是人工智能助手" -cnv
复制代码
还有很多参数可选
 也可以举行API的部署
  1. ./llama-server -m /mnt/workspace/Qwen2.5-3B-int4.gguf --port 8080
复制代码
启动一个api,运行在8080端口
颠末量化后的模型通过llama.cpp举行推理和部署时候,发现比自行盘算所占的显存还要小,有了解的朋侪贫苦指点下
 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

诗林

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表