1. 项目背景
开源大模型如LLaMA,Qwen,Baichuan等重要都是使用通用数据进行练习而来,其对于不同下游的使用场景和垂直范畴的效果有待进一步提升,衍生出了微调练习相关的需求,包罗预练习(pt),指令微调(sft),基于人工反馈的对齐(rlhf)等全链路。但大模型练习对于显存和算力的要求较高,同时也需要下游开发者对大模型本身的技能有肯定了解,具有肯定的门槛。
LLaMA-Factory项目标目标是整合主流的各种高效练习微调技能,适配市场主流开源模型,形成一个功能丰富,适配性好的练习框架。项目提供了多个高条理抽象的调用接口,包罗多阶段练习,推理测试,benchmark评测,API Server等,使开发者开箱即用。同时鉴戒 Stable Diffsion WebUI相关,本项目提供了基于gradio的网页版工作台,方便初学者可以迅速上手操纵,开发出本身的第一个模型。
2. 本教程目标
以Meta-Llama-3-8B-Instruct 模型 和 Linux + RTX 4090 24GB环境,LoRA+sft练习阶段为例子,帮助开发者迅速浏览和实践本项目会涉及到的常见多少个功能,包罗:
- 原始模型直接推理
- 自界说数据集构建
- 基于LoRA的sft指令微调
- 动态合并LoRA的推理
- 批量推测和练习效果评估
- LoRA模型合并导出
- 一站式webui board的使用
- API Server的启动与调用
- 大模型主流评测 benchmark
本教程大部分内容都可以通过LLaMA-Factory下的 README.md, data/README.md,examples文件夹下的示例脚本得到,遇到题目请先阅读项目原始相关资料。
关于全参练习,flash-attention加速, deepspeed,rlhf,多模态模型练习等更高阶feature的使用,后续会有额外的教程来先容。
3. 前置预备
练习顺遂运行需要包罗4个必备条件:
- 机器本身的硬件和驱动支持(包罗显卡驱动,网络环境等)
- 本项目及相关依赖的python库的精确安装(包罗CUDA, Pytorch等)
- 目标练习模型文件的精确下载
- 练习数据集的精确构造和配置
3.1 硬件环境校验
显卡驱动和CUDA的安装,网络教程很多,不在本教程范围以内
使用以下下令做最简单的校验
预期输出如图,显示GPU当前状态和配置信息
那多大的模型用什么练习方式需要多大的GPU呢,可参考 https://github.com/hiyouga/LLaMA-Factory?tab=readme-ov-file#hardware-requirement
新手发起是3090和4090起步,可以比较轻易地练习比较主流的入门级别大模型 7B和8B版本。
3.2 CUDA和Pytorch环境校验
请参考项目标readme进行安装
https://github.com/hiyouga/LLaMA-Factory?tab=readme-ov-file#dependence-installation
2024年51期间系统版本有较大升级,2024-05-06 号的安装版本下令如下,请注意conda环境的激活。
- git clone https://github.com/hiyouga/LLaMA-Factory.git
- conda create -n llama_factory python=3.10
- conda activate llama_factory
- cd LLaMA-Factory
- pip install -e .[metrics]
复制代码 安装后使用以下下令做简单的精确性校验
校验1
- import torch
- torch.cuda.current_device()
- torch.cuda.get_device_name(0)
- torch.__version__
复制代码 预期输出如图
如果识别不到可用的GPU,则阐明环境预备另有题目,需要先进行处置惩罚,才能今后进行。
校验2
同时对本库的基础安装做一下校验,输入以下下令获取练习相关的参数引导, 否则阐明库还没有安装乐成
- llamafactory-cli train -h
复制代码 所有资料 ⚡️ ,朋侪们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
|