利用llama.cpp量化模型

打印 上一主题 下一主题

主题 1977|帖子 1977|积分 5931

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
概要

大模型量化是指在保持模型性能尽可能不变的情况下,通过镌汰模型参数的位数来低落模型的盘算和存储本钱。本次实验环境为魔搭社区提供的免费GPU环境(24G),利用Llama.cpp举行4bit量化可以大幅镌汰大语言模型的内存占用,并进步推理效率。本次接纳的模型为前一篇博客所写的基准模型与LoRA微调后的归并模型。
团体实验流程


  • 由于基准模型较大就直接在服务器上下载并上传LoRA参数归并。
    1. 连不上huggingface,就用的魔搭社区的模型。
    复制代码
  1. from transformers import AutoTokenizer, AutoModelForCausalLM
  2. import torch
  3. from modelscope import snapshot_download
  4. #模型下载
  5. model_dir = snapshot_download('ChineseAlpacaGroup/llama-3-chinese-8b-instruct-v3')
  6. tokenizer = AutoTokenizer.from_pretrained(model_dir)
  7. model = AutoModelForCausalLM.from_pretrained
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

老婆出轨

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表