IT评测·应用市场-qidao123.com

标题: 硬核教程！如何用LLaMA-Factory快速开辟出自己的第一个大模型 [打印本页]

作者: 宝塔山 时间: 2025-3-20 02:15
标题: 硬核教程！如何用LLaMA-Factory快速开辟出自己的第一个大模型
1. 项目配景

开源大模型如LLaMA，Qwen，Baichuan等重要都是使用通用数据进行训练而来，其对于差别卑鄙的使用场景和垂直领域的效果有待进一步提拔，衍生出了微调训练相关的需求，包罗预训练（pt），指令微调（sft），基于人工反馈的对齐（rlhf）等全链路。但大模型训练对于显存和算力的要求较高，同时也必要卑鄙开辟者对大模型自己的技术有肯定了解，具有肯定的门槛。
LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术，适配市场主流开源模型，形成一个功能丰富，适配性好的训练框架。项目提供了多个高层次抽象的调用接口，包罗多阶段训练，推理测试，benchmark评测，API Server等，使开辟者开箱即用。同时借鉴 Stable Diffsion WebUI相关，本项目提供了基于gradio的网页版工作台，方便初学者可以迅速上手操纵，开辟出自己的第一个模型。

LLaMA Factory作者、北京航空航天大学博士生郑耀威，曾直播分享《LLaMA Factory：从预训练到RLHF，大模型高效训练框架》。想要观看的朋侪可以扫描上方二维码或点击文章底部“**阅读原文**”进行回看！
2. 本教程目标

以Meta-Llama-3-8B-Instruct 模型和 Linux + RTX 4090 24GB情况，LoRA+sft训练阶段为例子，帮助开辟者迅速浏览和实践本项目会涉及到的常见若干个功能，包括

• 原始模型直接推理
• 自定义数据集构建
• 基于LoRA的sft指令微调
• 动态归并LoRA的推理
• 批量推测和训练效果评估
• LoRA模型归并导出
• 一站式webui board的使用
• API Server的启动与调用
• 大模型主流评测 benchmark
• 导出GGUF格式，使用Ollama推理
• 本教程大部分内容都可以通过LLaMA-Factory下的 README.md[1]， data/README.md，examples文件夹下的示例脚本得到，遇到题目请先阅读项目原始相关资料。

关于全参训练，flash-attention加快, deepspeed，rlhf，多模态模型训练等更高阶feature的使用，后续会有额外的教程来介绍
3. 前置预备

训练顺利运行必要包罗4个必备条件

• 1.呆板自己的硬件和驱动支持（包罗显卡驱动，网络情况等）
• 2.本项目及相关依赖的python库的正确安装（包罗CUDA， Pytorch等）
• 3.目标训练模型文件的正确下载
• 4.训练数据集的正确构造和设置

3.1 硬件情况校验

显卡驱动和CUDA的安装，网络教程许多，不在本教程范围以内
使用以下下令做最简单的校验

nvidia-smi

复制代码

预期输出如图，显示GPU当前状态和设置信息

那多大的模型用什么训练方式必要多大的GPU呢，可参考
https://github.com/hiyouga/LLaMA…[1]
新手发起是3090和4090起步，可以比较容易地训练比较主流的入门级别大模型 7B和8B版本。

3.2 CUDA和Pytorch情况校验

请参考项目的readme进行安装
https://github.com/hiyouga/LLaMA…[2]
2024年51期间系统版本有较大升级，2024-06-07 号的安装版本下令如下，请注意conda情况的激活。

git clone https://github.com/hiyouga/LLaMA-Factory.git conda create -n llama_factory python=3.10 conda activate llama_factory cd LLaMA-Factory pip install -e '.[torch,metrics]'

复制代码

上述的安装下令完成了如下几件事

• 1.新建一个LLaMA-Factory 使用的python情况（可选）
• 2.安装LLaMA-Factory 所必要的第三方基础库（requirements.txt包罗的库）
• 3.安装评估指标所必要的库，包罗nltk, jieba, rouge-chinese
• 4.安装LLaMA-Factory自己，然后在系统中天生一个下令 llamafactory-cli（具体用法见下方教程）

安装后使用以下下令做简单的正确性校验
校验1

import torch torch.cuda.current_device() torch.cuda.get_device_name(0) torch.__version__

复制代码

预期输出如图

如果识别不到可用的GPU，则说明情况预备还有题目，必要先进行处理，才能今后进行。
校验2

同时对本库的基础安装做一下校验，输入以下下令获取训练相关的参数指导, 否则说明库还没有安装成功

llamafactory-cli train -h

复制代码

3.3 模型下载与可用性校验

项目支持通过模型名称直接从huggingface 和modelscope下载模型，但如许不容易对模型文件进行同一管理，所以这里笔者发起使用手动下载，然后后续使用时使用绝对路径来控制使用哪个模型。
以Meta-Llama-3-8B-Instruct为例，通过huggingface 下载（可能必要先提交申请通过）

git clone https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct

复制代码

modelscope 下载（适合中国大陆网络情况）

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

复制代码

或者

#模型下载 from modelscope import snapshot_download model_dir = snapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct')

复制代码

按网友反馈，由于网络情况等原因，文件下载后往往会存在文件不完备的许多情况，下载后必要先做一下校验，校验分为两部分，第一先检查一下文件巨细和文件数量是否正确，和原始的huggingface显示的做一下肉眼对比

第二步是跑一下官方raedme里提供的原始推理demo，验证模型文件的正确性和transformers库等软件的可用

import transformers import torch # 切换为你下载的模型文件目录, 这里的demo是Llama-3-8B-Instruct # 如果是其他模型，比如qwen，chatglm，请使用其对应的官方demo model_id = "/media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct" pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto", ) messages = [ {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"}, {"role": "user", "content": "Who are you?"}, ] prompt = pipeline.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) terminators = [ pipeline.tokenizer.eos_token_id, pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>") ] outputs = pipeline( prompt, max_new_tokens=256, eos_token_id=terminators, do_sample=True, temperature=0.6, top_p=0.9, ) print(outputs[0]["generated_text"][len(prompt):])

复制代码

3.4 数据集部分放到后面一起说明

4. 原始模型直接推理

在进行后续的环节之前，我们先使用推理模式，先验证一下LLaMA-Factory的推理部分是否正常。LLaMA-Factory 带了基于gradio开辟的ChatBot推理页面, 帮助做模型效果的人工测试。在LLaMA-Factory 目录下实行以下下令
本脚本参数参考自LLaMA-Factory/examples/inference/llama3.yaml at main · hiyouga/LLaMA-Factory [3]

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --template llama3

复制代码

CUDA_VISIBLE_DEVICES=0 是指定了当前步伐使用第0张卡，是指定全局变量的作用, 也可以不使用

llamafactory-cli webchat \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --template llama3

复制代码

必要注意的是，本次及后续所有的步伐的入口都是 llamafactory-cli，通过差别的参数控制如今是实现什么功能，比如如今是想使用网页版本直接推理，所以第一个参数设置为webchat, 所有的可选项包括

别的两个关键参数解释如下，后续的基本所有环节都会继承使用这两个参数
参数名称参数说明model_name_or_path参数的名称（huggingface或者modelscope上的标准定义，如“meta-llama/Meta-Llama-3-8B-Instruct”），或者是当地下载的绝对路径，如/media/codingma/LLM/llama3/Meta-Llama-3-8B-Instructtemplate模型问答时所使用的prompt模板，差别模型差别，请参考 https://github.com/hiyouga/LLaMA[4]获取差别模型的模板定义，否则会回答结果会很奇怪或导致重复天生等现象的出现。chat 版本的模型基本都必要指定，比如Meta-Llama-3-8B-Instruct的template 就是 llama3 固然你也可以提前把相关的参数存在yaml文件里，比如LLaMA-Factory/examples/inference/llama3.yaml at main · hiyouga/LLaMA-Factory[5]当地位置是 examples/inference/llama3.yaml ，内容如下

model_name_or_path: /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct template: llama3

复制代码

如许就可以通过如下下令启动，其效果跟上面是一样的，但是更方便管理

llamafactory-cli webchat examples/inference/llama3.yaml

复制代码

效果如图
可通过 http://localhost:7860/ 进行访问

注意：这里的localhost:7860 指的是步伐启动呆板自身的7860端口，云上的用户可能无法通过当地的条记本电脑直接访问，必要找云厂商获取域名和端口号的一些设置关系进行设置
比如阿里云用户必要做一下如下情况变量的设置才能正常运行gradio，然后再通过阿里云给的域名映射访问

export GRADIO_ROOT_PATH=/${JUPYTER_NAME}/proxy/7860/

复制代码

5. 自定义数据集构建

数据集的格式要求在差别的阶段是差别的，本教程以sft阶段的数据集需求，将以系统自带的identity数据集和将自定义的一个商品文案天生数据集为例，介绍数据集的使用。更多详情可以在
https://github.com/hiyouga/LLaMA…[6] 中找到相关解释。
系统如今支持 alpaca 和sharegpt两种数据格式，以alpaca为例，整个数据集是一个json对象的list，具体数据格式为

[ { "instruction": "用户指令（必填）", "input": "用户输入（选填）", "output": "模型回答（必填）", "system": "系统提示词（选填）", "history": [ ["第一轮指令（选填）", "第一轮回答（选填）"], ["第二轮指令（选填）", "第二轮回答（选填）"] ] } ]

复制代码

例子比如单轮（alpaca_data_zh_51k.json 中的例子, 数据集在data/dataset_info.json中注册为alpaca_zh）

{ "instruction": "写一个有效的比较语句", "input": "篮球和足球", "output": "篮球和足球都是受欢迎的运动。" }

复制代码

和多轮（oaast_sft_zh.json 中的例子, 数据集在data/dataset_info.json中注册为oaast_sft_zh）

{ "instruction": "谢谢", "input": "", "output": "不用谢! 很高兴我提供的信息能够帮助到你! 如果还有什么其他问题也可以向我提问。", "history": [ [ "请你给我写一个面试准备计划，我想要去面试微软的程序员岗位", "首先，你可以去微软官网寻找招聘信息并申请面试。\n其次，您可以在社交媒体平台寻找微软公司对程序员的面试问题，并做好准备。\n最后，您可以自己对面试过程进行模拟，熟悉话题并减少紧张感。\n我希望你能面试成功。" ] ] }

复制代码

所以我们训练的数据最好也转换成这种格式，然后在 data/dataset_info.json中进行注册（如果不做字段名称转换，则必要在注册的时候在 columns字段中做两个数据的映射设置）
接下来，我们使用两个具体的例子来说明数据集的使用
第一个是系统自带的identity.json数据集(已默认在data/dataset_info.json 注册为identity)，对应文件已经在data目录下，我们通过操纵系统的文本编辑器的更换功能，可以更换其中的NAME 和 AUTHOR ，换成我们必要的内容。如果是linux系统，可以使用sed 完成快速更换。比如助手的名称修改为PonyBot，由 LLaMA Factory 开辟

`sed -i 's/{{name}}/PonyBot/g' data/identity.json sed -i 's/{{author}}/LLaMA Factory/g' data/identity.json`

复制代码

更换前

{ "instruction": "Who are you?", "input": "", "output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?" }

复制代码

更换后

{ "instruction": "Who are you?", "input": "", "output": "I am PonyBot, an AI assistant developed by LLaMA Factory. How can I assist you today?" }

复制代码

第二个是一个商品文案天生数据集，原始链接为 https://cloud.tsinghua.edu.cn/f[7]
原始格式如下，很明显，训练目标是输入content （也就是prompt）, 输出 summary （对应response）

{ "content": "类型#裤*版型#宽松*风格#性感*图案#线条*裤型#阔腿裤", "summary": "宽松的阔腿裤这两年真的吸粉不少，明星时尚达人的心头爱。毕竟好穿时尚，谁都能穿出腿长2米的效果宽松的裤腿，当然是遮肉小能手啊。上身随性自然不拘束，面料亲肤舒适贴身体验感棒棒哒。系带部分增加设计看点，还让单品的设计感更强。腿部线条若隐若现的，性感撩人。颜色敲温柔的，与裤子本身所呈现的风格有点反差萌。" }

复制代码

想将该自定义数据集放到我们的系统中使用，则必要进行如下两步操纵
1.复制该数据集到 data目录下
2.修改 data/dataset_info.json 新加内容完成注册, 该注册同时完成了3件事

• 自定义数据集的名称为adgen_local，后续训练的时候就使用这个名称来找到该数据集
• 指定了数据集具体文件位置
• 定义了原数据集的输入输出和我们所必要的格式之间的映射关系

6. 基于LoRA的sft指令微调

在预备好数据集之后，我们就可以开始预备训练了，我们的目标就是让原来的LLaMA3模型可以或许学会我们定义的“你是谁”，同时学会我们盼望的商品文案的一些天生。
这里我们先使用下令行版本来做训练，从下令行更容易学习相关的原理。
本脚本参数改编自
LLaMA-Factory/examples/train_lora/llama3_lora_sft.yaml at main · hiyouga/LLaMA-Factory[8]

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --stage sft \ --do_train \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --dataset alpaca_gpt4_zh,identity,adgen_local \ --dataset_dir ./data \ --template llama3 \ --finetuning_type lora \ --output_dir ./saves/LLaMA3-8B/lora/sft \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 16 \ --per_device_train_batch_size 2 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 8 \ --lr_scheduler_type cosine \ --logging_steps 50 \ --warmup_steps 20 \ --save_steps 100 \ --eval_steps 50 \ --evaluation_strategy steps \ --load_best_model_at_end \ --learning_rate 5e-5 \ --num_train_epochs 5.0 \ --max_samples 1000 \ --val_size 0.1 \ --plot_loss \ --fp16

复制代码

关于参数的完备列表息争释可以通过如下下令来获取

llamafactory-cli train -h

复制代码

这里我对部分关键的参数做一下解释，model_name_or_path 和template 上文已解释

注意：精度相关的参数还有bf16 和pure_bf16，但是要注意有的老显卡，比如V100就无法支持bf16，会导致步伐报错或者其他错误
训练过程中，系统会按照logging_steps的参数设置，定时输出训练日记，包罗当前loss，训练进度等

训练完后就可以在设置的output_dir下看到如下内容，重要包罗3部分
1.adapter开头的就是 LoRA保存的结果了，后续用于模型推理融合
2.training_loss 和trainer_log等记录了训练的过程指标
3.其他是训练当时各种参数的备份

关于loss是什么等，这块不在本教程讨论内容范围之内，只必要记住loss在正常情况下会随着训练的时间逐步变小，最后必要下降到1以下的位置才会有一个比较好的效果，可以作为训练效果的一个中间指标。
7. 动态归并LoRA的推理

本脚本参数改编自
LLaMA-Factory/examples/inference/llama3_lora_sft.yaml at main · hiyouga/LLaMA-Factory[9]
当基于LoRA的训练进程结束后，我们如果想做一下动态验证，在网页端里与新模型对话，与步调4的原始模型直接推理相比，唯一的区别是必要通过finetuning_type参数告诉系统，我们使用了LoRA训练，然后将LoRA的模型位置通过 adapter_name_or_path参数即可。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora

复制代码

效果如下，可以看到，模型整个已经在学习了新的数据知识，学习了新的身份认知和商品文案天生的格式。

作为对比，如果删除LoRA相关参数，只使用原始模型重新启动测试，可以看到模型还是按照通用的一种回答。

如果不方便使用webui来做交互，使用下令行来做交互，同样也是可以的。
本脚本改编自
LLaMA-Factory/examples/inference/llama3_lora_sft.yaml at main · hiyouga/LLaMA-Factory[10]

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora

复制代码

效果如下

8. 批量推测和训练效果评估

固然上文中的人工交互测试，会偏感性，那有没有办法批量地推测一批数据，然后使用自动化的bleu和 rouge等常用的文本天生指标来做评估。指标计算会使用如下3个库，请先做一下pip安装

pip install jieba pip install rouge-chinese pip install nltk

复制代码

本脚本参数改编自 https://github.com/hiyouga/LLaM[11]

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --stage sft \ --do_predict \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --eval_dataset alpaca_gpt4_zh,identity,adgen_local \ --dataset_dir ./data \ --template llama3 \ --finetuning_type lora \ --output_dir ./saves/LLaMA3-8B/lora/predict \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 16 \ --per_device_eval_batch_size 1 \ --max_samples 20 \ --predict_with_generate

复制代码

与训练脚本重要的参数区别如下两个

最后会在output_dir下看到如下内容

其中 generated_predictions.jsonl 文件输出了要推测的数据集的原始label和模型predict的结果
predict_results.json给出了原始label和模型predict的结果，用自动计算的指标数据
这里给相关的指标做一下进一步的解释

9. LoRA模型归并导出

如果想把训练的LoRA和原始的大模型进行融合，输出一个完备的模型文件的话，可以使用如下下令。归并后的模型可以自由地像使用原始的模型一样应用到其他卑鄙环节，固然也可以递归地继承用于训练。
本脚本改编自
LLaMA-Factory/examples/inference/llama3_lora_sft.yaml at main · hiyouga/LLaMA-Factory[12]

CUDA_VISIBLE_DEVICES=0 llamafactory-cli export \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora \ --export_dir megred-model-path \ --export_size 2 \ --export_device cpu \ --export_legacy_format False

复制代码

10. 一站式webui board的使用

到这里，恭喜你完成了LLaMA-Efficent-Tuning训练框架的基础使用，那还有什么内容是没有介绍的呢？还有许多！这里介绍一个在提拔交互体验上有重要作用的功能，支持模型训练全链路的一站式WebUI board。一个好的产品离不开好的交互，Stable Diffusion的大放异彩的重要原因除了强大的内容输出效果，就是它有一个好的WebUI。这个board将训练大模型重要的链路和操纵都在一个页面中进行了整合，所有参数都可以可视化地编辑和操纵
通过以下下令启动
注意：如今webui版本只支持单机单卡和单机多卡，如果是多机多卡请使用下令行版本

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webui

复制代码

如果要开启 gradio的share功能，或者修改端口号

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

复制代码

如图所示，上述的多个差别的大功能模块都通过差别的tab进行了整合，提供了一站式的操纵体验。

当各种参数设置好后，在train页面，可以通过预览下令功能，将训练脚本导出，用于支持多gpu训练

点击开始按钮, 即可开始训练，网页端和服务器端会同步输出相关的日记结果

训练完毕后, 点击“刷新适配器”，即可找到该模型历史上使用webui训练的LoRA模型文件，后续再训练或者实行chat的时候，即会将此LoRA一起加载。

11. API Server的启动与调用

训练好后，可能部分同学会想将模型的本领形成一个可访问的网络接口，通过API 来调用，接入到langchian或者其他卑鄙业务中，项目也自带了这部分本领。
API 实现的标准是参考了OpenAI的相关接口协议，基于uvicorn服务框架进行开辟，使用如下的方式启动
本脚本改编自 https://github.com/hiyouga/LLaM[13]

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --adapter_name_or_path ./saves/LLaMA3-8B/lora/sft \ --template llama3 \ --finetuning_type lora

复制代码

项目也支持了基于vllm 的推理后端，但是这里由于一些限制，必要提前将LoRA 模型进行merge，使用merge后的完备版模型目录或者训练前的模型原始目录都可。

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \ --model_name_or_path megred-model-path \ --template llama3 \ --infer_backend vllm \ --vllm_enforce_eager

复制代码

服务启动后，即可按照openai 的API 进行远程访问，重要的区别就是更换其中的base_url，指向所部署的呆板url和端口号即可。

`import os from openai import OpenAI from transformers.utils.versions import require_version require_version("openai>=1.5.0", "To fix: pip install openai>=1.5.0") if __name__ == '__main__': # change to your custom port port = 8000 client = OpenAI( api_key="0", base_url="http://localhost:{}/v1".format(os.environ.get("API_PORT", 8000)), ) messages = [] messages.append({"role": "user", "content": "hello, where is USA"}) result = client.chat.completions.create(messages=messages, model="test") print(result.choices[0].message)`

复制代码

12. 进阶-大模型主流评测 benchmark

固然大部分同学的主流需求是定制一个卑鄙的垂直模型，但是在部分场景下，也可能有同学会使用本项目来做更高要求的模型训练，用于大模型刷榜单等，比如用于评测mmlu等使命。固然这类评测同样可以用于评估大模型二次微调之后，对于原来的通用知识的泛化本领是否有所下降。（由于一个好的微调，尽量是在具备垂直领域知识的同时，也保存了原始的通用本领）
本项目提供了mmlu，cmmlu, ceval三个常见数据集的自动评测脚本，按如下方式进行调用即可。
说明：task 如今支持 mmlu_test, ceval_validation, cmmlu_test
本脚本改编自 https://github.com/hiyouga/LLaM[14]
如果是chat版本的模型

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \ --template llama3 \ --task mmlu_test \ --lang en \ --n_shot 5 \ --batch_size 1

复制代码

输出如下, 具体使命的指标定义请参考mmlu，cmmlu, ceval等使命原始的相关资料, 和llama3的官方报告基本一致

Average: 63.64 STEM: 50.83 Social Sciences: 76.31 Humanities: 56.63 Other: 73.31

复制代码

如果是base版本的模型，template改为fewshot即可

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval \ --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B \ --template fewshot \ --task mmlu \ --split validation \ --lang en \ --n_shot 5 \ --batch_size 1

复制代码

13. 进阶-导出GGUF，部署Ollama

GGUF 是 lllama.cpp 计划的大模型存储格式，可以对模型进行高效的压缩，减少模型的巨细与内存占用，从而提拔模型的推理速度和效率。Ollama框架可以帮助用户快速使用当地的大型语言模型，那如何将LLaMA-Factory项目的训练结果导出到Ollama中部署呢？必要颠末如下几个步调

• 1.将lora模型归并
• 2.安装gguf库
• 3.使用llama.cpp的转换脚本将训练后的完备模型转换为gguf格式
• 4.安装Ollama软件
• 5.注册要部署的模型文件
• 6.启动Ollama

1-3 步是预备好 gguf格式的文件，这也是Ollama所必要的标准格式。
4-6 步就是如安在Ollama情况中启动训练后的模型。
1.lora模型归并

参考上文的第9步，这里笔者归并后的完备模型目录的绝对位置假设为 /home/codingma/code/LLaMA-Factory/megred-model-path
注意：这里笔者往下遇到了Ollama 推理会无法停止，或者重复输出，颠三倒四的题目，排查重要是二次训练保存后， tokenizer 的EOS编码和template有变化，如果也遇到了类似的题目，可以实验将归并后的目录下的 tokenizer_config.json 和 special_tokens_map.json 两个文件删除，从 LLaMA3 原始的模型文件中将两者copy和覆盖过来，然后再继承后面的流程
2. 安装gguf库

笔者发现直接 pip 安装 gguf，并不是最新的版本，和最新的转换脚本会不兼容，所以还是保举从源码安装

git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp/gguf-py pip install --editable .

复制代码

3. 格式转换

返回 llama.cpp 项目根目录，会有一个官方提供的 convert-hf-to-gguf.py 脚本，用于完成huggingface格式到gguf格式的转换.

cd .. python convert-hf-to-gguf.py /home/codingma/code/LLaMA-Factory/megred-model-path

复制代码

转换成功可在megred-model-path路径下得到如下的gguf文件

4. Ollama安装

本文是linux情况，所以用了对应的下载和安装方式，如果是其他系统的用户可以按照 https://ollama.com/download 的说明完成下载安装

curl -fsSL https://ollama.com/install.sh | sh

复制代码

5. 注册要部署的模型文件

Ollama 对于要部署的模型必要提前完成当地的设置和注册, 和 Docker的设置很像
编写一个文件名为 Modelfile 的文件, 内容如下

FROM /home/codingma/code/LLaMA-Factory/megred-model-path

复制代码

然后下令行注册该文件，设定该文件对应的模型名称，这里设定 llama3-chat-merged

ollama create llama3-chat-merged -f Modelfile

复制代码

必要说明的是，由于LLaMA3的实现自己相对规范，所以Modelfile 的编写相对很简洁，反之对于其他一些模型，可能还必要在内里自主完成template prompt格式的注册，否则问答时会出现答非所问的情况。
6. 启动Ollama

上面注册好后，即可通过ollma 下令 + 模型名称的方式，完成服务的启动

ollama run llama3-chat-merged

复制代码

启动后即可通过交互式完成问答，输入 /bye 即可退出
如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让步伐员们开始重新评估自己的本领。 “AI会代替那些行业？”“谁的饭碗又将不保了？”等题目热议不停。
事实上，抢你饭碗的不是AI，而是会使用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产品后，许多中小企业也陆续进场！超高年薪，发掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，平凡步伐员，还有应对的时机吗？
与其焦急……

不如成为「把握AI工具的技术人」，毕竟AI时代，谁先实验，谁就能占得先机！
但是LLM相关的内容许多，如今网上的老课程老课本关于LLM又太少。所以如今小白入门就只能靠自学，学习成本和门槛很高。
基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！
在这个版本当中：

第一您不必要具备任何算法和数学的基础
第二不要求预备高设置的电脑
第三不必懂Python等任何编程语言
您只必要听我讲，跟着我做即可，为了让学习的门路变得更简单，这份大模型教程已经给大家整理并打包，如今将这份 LLM大模型资料分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等,

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)