参数 | 说明 | 参数 | 说明 |
Lang | 语言选择(en英语 zh中文) | Model name | 微调的模型 |
Finetuning method | 微调方法(full 全模型微调freeze冻结层微调 lora层冻结微调) | checkpoint path | 是否保存检查点 |
stage | 练习阶段Supervised Fine-Tuning(监视微调), Reward Modeling(夸奖建模)PPO(旨在进步练习服从并实现稳定性)DPO是一种优化算法,用于保护数据隐私。 Pre-Training(预练习) | dataset | 选择数据集(preview dataset可以预览数据集) |
learning rate | 学习率一样平常而言越大 越容易收敛,但很难找到最优解;而学习率小则收敛的速度慢。根据数据集选择符合的学习率。1000条数据建议学习率设置为1e-4 | epochs | 一个 epoch 是一次完整的练习数据集,通过模型进行前向传播和反向传播的过程。 |
Maximum gradient norm | 最大梯度范数用于对梯度进行裁剪,限制梯度的巨细,以防止梯度爆炸(梯度过大)的题目。一样平常设置1-5范围,其中1通常用于对梯度进行相对较小的裁剪,3到5:用于对梯度进行中等程度的裁剪,实用于一样平常深度学习模型的练习。 | Compute type | FP16,BF16,FP32 V100是无法使用bf16精度的,只能使用fp16。 |
cutoff_len | 用于控制输入文本的截断长度。当输入文本的长度超过 cutoff_len 时,模型会截取前 cutoff_len 个字符或标记 | Batch size | 一次练习的样本数 |
Gradient accumulation | 就是将多次盘算得到的梯度值进行累加,然后一次性进行参数更新。 | Val size | 验证集尺寸 |
LR scheduler | 学习率调治器。动态调整学习率,从而找到最优解。常见的有cosine,linear | | |
配置完参数后选择结果输出路径,然后点击start即可。参数 | 说明 | 参数 | 说明 |
Lang | 语言选择(en英语 zh中文) | Model name | 微调的模型 |
Finetuning method | 微调方法(full 全模型微调freeze冻结层微调 lora层冻结微调) | checkpoint path | 是否保存检查点 |
stage | 练习阶段Supervised Fine-Tuning(监视微调), Reward Modeling(夸奖建模)PPO(旨在进步练习服从并实现稳定性)DPO是一种优化算法,用于保护数据隐私。 Pre-Training(预练习) | dataset | 选择数据集(preview dataset可以预览数据集) |
learning rate | 学习率一样平常而言越大 越容易收敛,但很难找到最优解;而学习率小则收敛的速度慢。根据数据集选择符合的学习率。1000条数据建议学习率设置为1e-4 | epochs | 一个 epoch 是一次完整的练习数据集,通过模型进行前向传播和反向传播的过程。 |
Maximum gradient norm | 最大梯度范数用于对梯度进行裁剪,限制梯度的巨细,以防止梯度爆炸(梯度过大)的题目。一样平常设置1-5范围,其中1通常用于对梯度进行相对较小的裁剪,3到5:用于对梯度进行中等程度的裁剪,实用于一样平常深度学习模型的练习。 | Compute type | FP16,BF16,FP32 V100是无法使用bf16精度的,只能使用fp16。 |
cutoff_len | 用于控制输入文本的截断长度。当输入文本的长度超过 cutoff_len 时,模型会截取前 cutoff_len 个字符或标记 | Batch size | 一次练习的样本数 |
Gradient accumulation | 就是将多次盘算得到的梯度值进行累加,然后一次性进行参数更新。 | Val size | 验证集尺寸 |
LR scheduler | 学习率调治器。动态调整学习率,从而找到最优解。常见的有cosine,linear | | |
配置完参数后选择结果输出路径,然后点击start即可。