ToB企服应用市场:ToB评测及商务社交产业平台

标题: llamafactory用多卡4090服务器，训练qwen14B大模型时报错GPU显存不足oom（o [打印本页]

作者: 铁佛 时间: 2024-12-10 23:07
标题: llamafactory用多卡4090服务器，训练qwen14B大模型时报错GPU显存不足oom（o
(llamafactory用多张4090卡，训练qwen14B大模型时oom(out of memory)报错，torch.OutOfMemoryError:CUDA out of memory,Tried to allocate 136MB，GPU 5 has a total capacity of 23.64GB which 16.56MB is free，已办理)
1.问题形貌

通过export CUDA_VISIBLE_DVICES=0,1,2,3,4,5,6,7指定使用8张显卡，训练qwen2.5-7B大模型时正常，但训练qwen2.5-14B，qwen2.5-32B模型时报错，torch.OutOfMemoryError:CUDA out of memory,Tried to allocate 136MB，GPU 5 has a total capacity of 23.64GB which 16.56MB is free 。
大概意思就是说GPU显存不足，很明显不符合实际，我的8张4090卡总显存是8*24GB，理论上14B的大模型肯定能跑起来。
linux服务器环境：
系统：Ubuntu22；
硬件：本机512G内存，8张4090显卡；
python：3.10版本；
llamafactory版本：0.9.1.dev0；
cuda版本：12.4版本；
pytorch版本：2.4.0+cuda121(GPU)；
大模型：qwen2.5（7B，14B，32B，72B）Instruct版；

2.办理方案

减小大模型训练参数： 查一些帖子说是大模型训练参数太大，尝试减小数据量，减小步数，fp16位精度等，依旧不可，未办理，说明不是模型训练参数太大；
多余的内存分配给CPU： 从上面的oom报错缘故原由我们可以看出，给GPU分配了136M内存，但实际GPU只剩16M了，导致oom报错，那就把多余的内存分配给CPU，完美办理。
**详细办理方案：**在LLaMA-Factory目次下新建一个run_train_bash.sh新件，详细目次如下图：

在run_train_bash.sh文件中，设置参数如下：
model_name_or_path和output_dir 改成你自己的本地大模型和输出路径就行；
src/train.py 取决于你src目次下的训练启动文件名，这个是llamafactory自带的；
CUDA_VISIBLE_DEVICES：看你有几张卡，必要用几张卡，我的是8张卡；
其它都是训练参数，根据实际必要修改。最重要的是deepspeed ds_config_zero3.json这行，
这个是qwen官网给的。deepspeed 库可以用pip install deepspeed 安装一下。

run_train_bash.sh文件中内容：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch src/train.py \
--deepspeed ds_config_zero3.json \
--stage sft \
--do_train True \
--model_name_or_path /home/admin1/Qwen2.5-72B-Instruct \
--finetuning_type lora \
--template qwen \
--dataset_dir data \
--dataset alpaca_zh_demo \
--cutoff_len 1024 \
--learning_rate 5e-05 \
--num_train_epochs 1 \
--max_samples 100000 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 1 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 5 \
--save_steps 100 \
--warmup_steps 0 \
--neftune_noise_alpha 0 \
--lora_rank 8 \
--lora_dropout 0.1 \
--lora_target all \
--output_dir saves/Qwen2.5-72B-Instruct/lora/train_2024-10-22-17-04-29 \
--fp16 True \
--plot_loss True

复制代码

至于ds_config_zero3.json这个，可以去qwen官网下载，https://github.com/QwenLM/Qwen/blob/main/finetune/ds_config_zero3.json。
使用qwen官方给的例子，新建一个ds_config_zero3.json，依旧是LLaMA-Factory目次下，和刚才的run_train_bash.sh文件在同一个目次。
ds_config_zero3.json格式如下：

复制代码

创建后的ds_config_zero3.json如下图，：

把ds_config_zero3.json中的device改为cpu即可。

"zero_optimization": {
"stage": 3,
"offload_optimizer": {
"device": "cpu",
"pin_memory": true
},
"offload_param": {
"device": "cpu",
"pin_memory": true
},

复制代码

3.运行run_train_bash.sh，开始大模型训练

不能通过llamafactory-cli webui大概llamafactory-cli train方式启动，否则依旧会报oom错误。精确启动方式是在pycharm终端或linux终端，执行run_train_bash.sh文件即可。run run_train_bash.sh或./run_train_bash.sh方式均可。
至此大功告成，使用多卡，qwen14B，qwen32B的模型都能训练乐成，不会再有oom报错。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)

Powered by Discuz! X3.4