人工智能-利用llama.cpp量化模型 - Powered by Discuz! Archiver

老婆出轨 发表于 2025-3-27 04:39:51

利用llama.cpp量化模型

概要

大模型量化是指在保持模型性能尽可能不变的情况下，通过镌汰模型参数的位数来低落模型的盘算和存储本钱。本次实验环境为魔搭社区提供的免费GPU环境（24G），利用Llama.cpp举行4bit量化可以大幅镌汰大语言模型的内存占用，并进步推理效率。本次接纳的模型为前一篇博客所写的基准模型与LoRA微调后的归并模型。
团体实验流程

[*] 由于基准模型较大就直接在服务器上下载并上传LoRA参数归并。
连不上huggingface，就用的魔搭社区的模型。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from modelscope import snapshot_download
#模型下载
model_dir = snapshot_download('ChineseAlpacaGroup/llama-3-chinese-8b-instruct-v3')
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForCausalLM.from_pretrained
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

利用llama.cpp量化模型