【大模子】微调实战—利用 ORPO 微调 Llama 3
ORPO 是一种新颖微调(fine-tuning)技能,它将传统的监督微调(supervised fine-tuning)和偏好对齐(preference alignment)阶段归并为一个过程。这减少了练习所需的盘算资源和时间。此外,实证效果表明,ORPO 在各种模子规模和基准测试(benchmarks)上优于其他对齐方法。在本文中,我们将利用 ORPO 和 TRL 库对新的 Llama 3 8B 模子进行微调。
ORPO
指令微调(instruction tuning)和偏好对齐(preference alignment)是使LLM顺应特定任务的基本技能。传统上,这涉及一个多阶段的过程:1/ 在指令上进行监督微调(Supervised Fine-Tuning, SFT),以使模子顺应目标领域,然后 2/ 利用偏好对齐方法,如基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)或直接偏好优化(Direct Preference Optimization, DPO),以增长生成首选相应而非被拒绝相应的可能性。
https://i-blog.csdnimg.cn/direct/a1845d7626794a098527dcc5832ce4db.png
然而,研究人员发现了这种方法的范围性。虽然 SFT 有效地使模子顺应所需的领域,但它无意中增长了在首选答案的同时生成不须要的答案的可能性。这就是为什么偏好调整阶段对于扩大首选输出和拒绝输出的可能性之间的差距是须要的。
ORPO 由 Hong 和 Lee (2024) 提出,通过将指令调整和偏好对齐联合到一个单一的整体练习过程中,为这个问题提供了一个优雅的解决方案。 ORPO 修改了尺度语言建模目标,将负对数似然丧失与上风比 (OR) 项相联合。这种 OR 丧失对被拒绝的相应进行弱处罚,同时对首选相应进行强烈奖励,从而使模子能够同时学习目标任务并与人类偏好保持同等。
https://i-blog.csdnimg.cn/direct/ee1621e4010e4f94b7db54b912703a81.png
ORPO 已在紧张微调库中实现,如 TRL、Axolotl 和 LLaMA-Factory。在下一节中,我们将相识怎样与 TRL 一起利用。
利用 ORPO 微调 Llama 3
Llama 3 是Meta开发的最新大型语言模子(LLM)家族。该模子在一个包含15万亿个标记的数据集上进行了练习(相比之下,Llama 2 的练习数据集为2万亿个标记)。现在已经发布了两种模子尺寸:一个是拥有70B参数的模子,另一个是较小的8B参数模子。70B参数的模子已经展示了令人印象深刻的性能,在MMLU基准测试中得分为82,在HumanEval基准测试中得分为81.7。
Llama 3 模子还将上下文长度增长到了8,192个标记(相比之下,Llama 2 为4,096个标记),并且有可能通过RoPE扩展到32k。此外,这些模子利用了一种新的分词器,具有128K标记的词汇量,从而减少了编码文本所需的标记数目15%。这种词汇量的增长也解释了参数从70亿增长到80亿。
ORPO 须要一个偏好数据集,包括提示、选择的答案和拒绝的答案。在此示例中,我们将利用 mlabonne/orpo-dpo-mix-40k ,它是以下高质量 DPO 数据集的组合:
[*]argilla/distilabel-capybara-dpo-7k-binarized: highly scored chosen answers >=5 (2,882 samples)
[*]argilla/distilabel-intel-orca-dpo-pairs: highly scored chosen answers>=9, not in GSM8K (2,299 samples)
[*]argilla/ultrafeedback-binarized-preferences-cleaned: highly scoredchosen answers >=5 (22,799 samples)
[*]argilla/distilabel-math-preference-dpo: highly scored chosen answers>=9 (2,181 samples)
[*]unalignment/toxic-dpo-v0.2 (541 samples)
[*]M4-ai/prm_dpo_pairs_cleaned (7,958 samples)
[*]jondurbin/truthy-dpo-v0.1 (1,016 samples)
首先安装所需的库:
pip install -U transformers datasets accelerate peft trl bitsandbytes wandb
安装完成后,我们可以导入须要的库并登录W&B(可选)
import gc
import os
import torch
import wandb
from datasets import load_dataset
# from google.colab import userdata
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
BitsAndBytesConfig,
TrainingArguments,
pipeline,
)
from trl import ORPOConfig, ORPOTrainer, setup_chat_format
# wb_token = userdata.get('wandb')
# wandb.login(key=wb_token)
如果您有最新的 GPU,还应该能够利用 Flash Attention 库将默认的 eager Attention 实现替换为更高效的实现。
if torch.cuda.get_device_capability() >= 8:
#!pip install -qqq flash-attn
attn_implementation = "flash_attention_2"
torch_dtype = torch.bfloat16
else:
attn_implementation = "eager"
torch_dtype = torch.float16
接下来,我们将借助bitsandbytes 以 4 位精度加载 Llama 3 8B 模子。然后,我们利用 QLoRA 的 PEFT 设置 LoRA 配置。我还利用方便的 setup_chat_format() 函数来修改模子和标记生成器以支持 ChatML。它会自动应用此谈天模板,添加特别标记,并调整模子嵌入层的巨细以匹配新的词汇表巨细。
请注意,您须要提交访问 meta-llama/Meta-Llama-3-8B 的哀求并登录您的 Hugging Face 帐户。或者,您可以加载模子的非门控副本,比方 NousResearch/Meta–Llama-3-8B。(我选择手动从NousResearch/Meta–Llama-3-8B下载)
# Model
base_model = "meta-llama/Meta-Llama-3-8B"
new_model = "OrpoLlama-3-8B"
# QLoRA config
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch_dtype,
bnb_4bit_use_double_quant=True,
)
# LoRA config
peft_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
target_modules=['up_proj', 'down_proj', 'gate_proj', 'k_proj', 'q_proj', 'v_proj', 'o_proj']
)
# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(base_model)
# Load model
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
device_map="auto",
attn_implementation=attn_implementation
)
model, tokenizer = setup_chat_format(model, tokenizer)
model = prepare_model_for_kbit_training(model)
现在模子已准备好进行练习,我们可以处置惩罚数据集了。我们加载 mlabonne/orpo-dpo-mix-40k 并利用 apply_chat_template() 函数将“chosen”和“rejected”列转换为 ChatML 格式。请注意,我仅利用 1,00 个样本,而不是整个数据集,由于运行时间太长。(我选择手动下载)
dataset_name = "mlabonne/orpo-dpo-mix-40k"
dataset = load_dataset(dataset_name, split="all")
dataset = dataset.shuffle(seed=42).select(range(100))
def format_chat_template(row):
row["chosen"] = tokenizer.apply_chat_template(row["chosen"], tokenize=False)
row["rejected"] = tokenizer.apply_chat_template(row["rejected"], tokenize=False)
return row
dataset = dataset.map(
format_chat_template,
num_proc= os.cpu_count(),
)
dataset = dataset.train_test_split(test_size=0.01)
首先,我们须要设置一些超参数: * learning_rate :与传统的 SFT 甚至 DPO 相比,ORPO 利用非常低的学习率。 8e-6这个值来自原始论文,大致对应于SFT学习率1e-5和DPO学习率5e-6。我建议将其增长到 1e-6 左右以进行真正的微调。 * beta :即论文中的
页:
[1]