f 人工智能-llamafactory finetune VLM qwenVL2-7B多模态意图识别 - Powered by qidao123.com技术社区

llamafactory finetune VLM qwenVL2-7B多模态意图识别

打印 上一主题 下一主题

主题 1751|帖子 1751|积分 5253


总结:
1.对图片利用paddle-OCR生成observation提点不多
2.finetuning_type: lora lora_target: all 相比于 finetuning_type: full,即Lora微调相比SFT全调差很多,有资源SFT选SFT吧。
3.GUI图片页面分类利用(crop,masaic)等图像增强方式可以进步分类准确率,但后期过拟合了。训练集全猜测精确,测试集反而分数降低。
4.跑一遍训练集再针对corner case DPO可以轻微提点,但是后期由于利用数据增强过拟合了,也就没有再DPO了
5.7B的模型用单张H800就可以了,但是A800会CPU OOM,这俩显卡在显存上一致,但内存上H800还是更优。

6.大部门时间在做数据,一开始认为sharegpt格式优于alpaca,可以通过把instrction分出system,等脚色来对prompt设置权重及上下文长度。但是效果并不显著。
训练指令

单机单卡

  1. cd /mnt/sz-xcy-data-image-docs-parse/private/xuchunyuan/WWW2025/LLaMA-Factory-main/;
  2. pip install -e ".[torch,metrics]";
  3. pip install deepspeed==0.15.4
  4. FORCE_TORCHRUN=1 llamafactory-cli train examples/qwen2_vl_full_sft.yaml
复制代码
  1. cd /mnt/sz-xcy-data-image-docs-parse/private/xuchunyuan/WWW2025/LLaMA-Factory-main/;
  2. pip install -e ".[torch,metrics]";
  3. FORCE_TORCHRUN=1 llamafactory-cli train examples/qwen2_vl_full_dpo.yaml
  4. llamafactory-cli export examples/qwen2vl_dpo_merge.yaml;
  5. llamafactory-cli train examples/predict.yaml;
复制代码
多机多卡

  1. cd /mnt/sz-xcy-data-image-docs-parse/private/xuchunyuan/WWW2025/LLaMA-Factory-main/;
  2. pip install -e ".[torch,metrics]";
  3. pip install deepspeed==0.15.4;
  4. torchrun --rdzv_backend=c10d --rdzv_endpoint=$MASTER_ADDR:$MASTER_PORT --nnodes=$WORLD_SIZE    --nproc_per_node=$RESOURCE_GPU --node_rank=$RANK --rdzv-id=100 src/train.py qw.yaml
复制代码
https://zhuanlan.zhihu.com/p/693889463
图像场景分类分数太低

利用了随机马赛克数据增强,随机crop数据增强,转化灰度图像数据增强,随机涂鸦画圆圈,加玄色变暗的滤镜
saves/qwen2_vl-7b/full/www2025-8aug/checkpoint-1016 训练集居然都猜测对了,但是图片场景分类分数却下降了,说明有过拟合。



数据增强+OCR

saves/qwen2_vl-7b/full/sft-www2025-cropimg-sharegpt-ocr
sharegpt-ocr-test-1000
虽然在训练集上体现很好,但测试集并没有征象中的效果,intent score由于OCR的加入有提升,同时image score会降低,



数据增强

12-30 train20epoch


6-->20 epoch,num total11-->5

12-27 train6epoch

看了下,还是有很多页面分类错误。以是做了图片随机裁剪的增强。train了6个epoch,最佳的是最后一个,看来还是有下降的空间。
print(i,labels,preds)
  1. 2024-12-27T06:08:48.579274423Z 388 物流页面-物流异常页面 平台介入页面
  2. 2024-12-27T06:08:48.579302411Z 394 商品详情页截图 商品头图
  3. 2024-12-27T06:08:48.579305051Z 520 其他类别图片 优惠券领取页面
  4. 2024-12-27T06:08:48.579306950Z 569 支付页面 账单/账户页面
  5. 2024-12-27T06:08:48.579308901Z 590 其他类别图片 退款页面
  6. 2024-12-27T06:08:48.579310536Z 600 物流页面-物流列表页面 支付页面
  7. 2024-12-27T06
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

干翻全岛蛙蛙

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表