我爱普洱茶 发表于 2024-8-31 07:27:28

利用llama-factory和llama.cpp微调量化Qwen2

预备数据集

1.选定命据集的格式
2.将处理好的数据集上传到/data 文件夹下面,并修改dataset_info.json文件
3.测试数据集同理
微调

在目录LLaMA-Factory/examples/train_lora/llama3_lora_sft_praise.yaml
下修改对应的参数
训练下令:
CUDA_VISIBLE_DEVICES=1 llamafactory-cli train examples/train_lora/llama3_lora_sft_praise.yaml
生成模型将会放在LLaMA-Factory/saves下面
测试

llamafactory-cli train examples/train_lora/llama3_lora_predict.yaml
自己的测试acc脚本
cd saves/Qwen2-1.5B/lora/predict/
python acc.py
归并

llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml
利用llama.cpp量化

将归并后的模型转化为fp16精度的gguf格式文件
python convert-hf-to-gguf.py /home/ccnu-train/gl/LLaMA-Factory/models/qwen2_lora_sft/question/ --outfile models/1.5B/qwen2-1.5B-question-fp16.gguf
量化为int4精度的模型
./llama-quantize ./models/1.5B/qwen2-1.5b-question2-fp16.gguf ./models/1.5B/qwen2-1.5b-question2-q4_0.gguf q4_0
flash-attn&cuda版本
flash-attn:2.6.3
cuda:12.4

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 利用llama-factory和llama.cpp微调量化Qwen2