老婆出轨 发表于 2025-3-27 04:39:51

利用llama.cpp量化模型

概要

大模型量化是指在保持模型性能尽可能不变的情况下,通过镌汰模型参数的位数来低落模型的盘算和存储本钱。本次实验环境为魔搭社区提供的免费GPU环境(24G),利用Llama.cpp举行4bit量化可以大幅镌汰大语言模型的内存占用,并进步推理效率。本次接纳的模型为前一篇博客所写的基准模型与LoRA微调后的归并模型。
团体实验流程


[*] 由于基准模型较大就直接在服务器上下载并上传LoRA参数归并。
连不上huggingface,就用的魔搭社区的模型。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from modelscope import snapshot_download
#模型下载
model_dir = snapshot_download('ChineseAlpacaGroup/llama-3-chinese-8b-instruct-v3')
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForCausalLM.from_pretrained
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 利用llama.cpp量化模型