【AI论文】MM-Eureka:基于规则的大规模强化学习探索视觉“啊哈”时刻 ...

打印 上一主题 下一主题

主题 984|帖子 984|积分 2952


择要:我们提出了MM-Eureka,这是一个多模态推理模型,成功地将基于规则的大规模强化学习(RL)扩展到多模态推理领域。固然基于规则的RL在提升大型语言模型(LLMs)在文本领域的推理能力方面已经取得了显著成功,但将其应用于多模态设置仍然充满寻衅。我们的工作在多模态空间中再现了基于文本的RL体系(如DeepSeek-R1)的关键特性,包罗准确率嘉奖和相应长度的稳步提升,以及反思行为的涌现。我们证实,无论是指令微调模型照旧预训练模型,都可以通过基于规则的RL发展出强大的多模态推理能力,而无需监视微调,与更换方法相比,这表现出了更高的数据效率。我们开源了完备的流程,以促进该领域的进一步研究。所有代码、模型、数据等均已发布在https://github.com/ModalMinds/MM-EUREKA。Huggingface链接:Paper page,论文链接:2503.07365
研究配景与目的

研究配景
随着人工智能技能的飞速发展,特殊是大规模强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的显著成效,研究人员开始探索将这一技能应用于更广泛的任务领域。在文本领域,基于规则的RL已经取得了令人瞩目的结果,显著提高了LLMs的推理能力。然而,将这种成功扩展到多模态设置(如涉及图像和文本的任务)仍然是一个巨大的寻衅。多模态推理任务,如解释科学图表和几何推理,需要同时处理和分析来自差别模态的信息,这对模型的综合明确和推理能力提出了更高要求。
只管近年来有一些尝试将大规模RL技能应用于多模态场景的工作,但这些积极大多未能完全复现像在文本领域那样稳固增长的准确率嘉奖和相应长度,以及反思行为等关键特性。例如,R1-V固然在简单的计数任务上有所改进,但未能实现相应长度和“啊哈”时刻(即模型在推理过程中突然意会并解决问题的瞬间)的增加。R1-Multimodal-Journey固然探索了几何问题,但相应长度随着训练的举行而下降。此外,固然Kimi1.5在多模态推理方面取得了有竞争力的结果,但其模型和训练数据并未开源,限制了社区对该技能的进一步探索。
研究目的
鉴于上述配景,本研究旨在探索大规模基于规则的RL在多模态推理任务中的有效性,并开源完备的流程以促进该领域的进一步研究。具体目的包罗:

  • 开发多模态推理模型MM-Eureka,该模型能够复现在多模态空间中基于文本的RL体系(如DeepSeek-R1)的关键特性。
  • 证实无论是指令微调模型照旧预训练模型,都可以通过基于规则的RL发展出强大的多模态推理能力,而无需监视微调。
  • 通过开源完备的流程(包罗代码、模型和数据),促进社区对多模态推理任务的进一步研究。
研究方法

基本设置
本研究接纳InternVL2.5作为基线模型,因为它提供了多种模型尺寸,适合举行扩展实行。为了体系地研究RL在差别尺寸模型(8B或38B)、指令微调或预训练模型以及使用蒸馏数据举行冷启动或不使用冷启动的模型上的影响,我们举行了大量实行。RL算法类似于DeepSeek-R1,使用基于规则的格式嘉奖(r_format∈{0,1})和准确率嘉奖(r_accuracy∈{0,1})举行训练。
数据集
本研究的数据集重要由开源数据组成,并手动网络了K-12级别的数学多模态推理问题,以增强数据的推理特性。数据网络过程涵盖了多个开源数据集,如GeoQA、ChartQA、MATH等,终极网络了75514个样本。为了进一步提高RL训练的数据质量,我们实行了数据清洗过程,包罗排除没有清晰答案或难以用我们的基于规则的嘉奖函数精确分析的问题,以及使用InternVL2.5-8B-instruct模型估计问题的难度,并移除估计准确率为0或1的问题。颠末清洗后,终极的训练数据集包罗54931个样本。
嘉奖函数
本研究接纳简单的基于规则的嘉奖函数,而不是使用结果或过程嘉奖模型,从而制止了嘉奖黑客攻击(reward hacking)。嘉奖函数包罗准确率嘉奖和格式嘉奖,终极嘉奖定义为r=r_accuracy+λr_format,其中λ是均衡格式嘉奖贡献的缩放系数。
优势估计和策略更新
在强化学习训练阶段,我们接纳REINFORCE Leave-One-Out(RLOO)算法,该算法不需要评论家模型,有效降低了训练成本。对于行动者损失,我们接纳PPO-clip损失,而不是标准的REINFORCE目的。此外,固然我们在损失计算中通常将KL散度权重αKL设置为0(因为在实行中体现更好),但我们仍然保留了KL散度作为正则化项的选项。
研究结果

模型性能
我们开发了MM-Eureka-8B和MM-Eureka-Zero-38B两个模型,分别基于InternVL2.5-Instruct-8B和InternVL2.5-Pretrained-38B。实行结果表明,这两个模型在多模态推理任务上均体现出色。具体来说:

  • 训练过程中的稳固提升:无论是基于指令微调模型照旧预训练模型,MM-Eureka在训练过程中都实现了准确率嘉奖和相应长度的稳步提升。
  • 与更换方法的比力:与MPO和SFT等更换方法相比,MM-Eureka在数据效率方面体现出色。例如,使用仅54K训练样本的MM-Eureka-8B模型在多个基准测试上的性能超过了使用1M数据训练的MPO模型,并且与使用12M数据举行COT SFT训练的模型性能相称。
  • “零时刻”现象:MM-Eureka-Zero-38B模型仅使用9.3K K-12数据样本举行训练,就在某些基准测试(如OlympiadBench和K12)上超过了使用16.3M数据举行SFT训练的指令微调模型,并且在其他基准测试上取得了可比的性能。这表明在多模态推理领域存在“零时刻”现象。
视觉“啊哈”时刻
在实行过程中,我们观察到了视觉“啊哈”时刻,即模型在推理过程中重新审阅图像以寻找更多线索的行为。这表明多模态推理能力也可以通过大规模RL来培养。例如,模型首先规划了一个解决方案,然后在完成后反思其工作并接纳了一种新方法来解决问题。
研究局限

数据使用效率
只管MM-Eureka在数据效率方面体现出色,但我们发现,基于难度的数据过滤策略固然稳固了RL训练,但也浪费了一部门可用数据。我们尝试了在线数据过滤方法以提高数据使用效率,但实行结果表明,这种方法在准确率嘉奖或相应长度的提升方面体现不佳。我们以为这可能是由于每个训练轮次中用于更新的批次大小差别导致的梯度不稳固。
小型模型的稳固性
只管一些工作成功地在纯语言设置中使用小型模型复现了R1-Zero场景,但我们发现,在多模态数学推理场景中,小型模型(如8B)难以维持稳固的基于规则的RL训练,相比之下,大型模型(如38B)则体现出更好的稳固性。因此,怎样在多模态推理领域使用小型模型复现R1-Zero时刻仍然是一个需要进一步探索的问题。
课程学习
我们尝试了使用课程学习(curriculum learning)方法举行RL实行,但结果并不理想。只管直觉上以为课程学习可以让模型逐渐学习,但我们发现与直接训练相比并没有优势)。我们以为这可能是由于简单的课程学习设置导致模型在早期和中期阶段固定于简单问题,从而阻碍了对困难问题的探索,并制止了后期阶段的准确率提升。
将来研究方向

提高数据使用效率
将来的研究可以探索更有效的方法来使用多模态数据,以提高RL训练的数据使用效率。这可能包罗开发更智能的数据过滤策略、使用自监视学习方法来增强数据表示或结合多种数据增强技能。
小型模型的稳固性训练
针对小型模型在多模态推理任务中的稳固性问题,将来的研究可以探索更适合小型模型的RL算法或训练策略。这可能包罗开发新的嘉奖函数、调解超参数或结合其他技能(如迁徙学习)来提高小型模型的性能。
跨模态交互的明确
目前的研究重要会集在怎样通过RL提高多模态模型的推理能力,但将来的研究可以进一步探索模型怎样明确和处理跨模态交互。这可能包罗分析模型在推理过程中怎样整合来自差别模态的信息、怎样辨认和使用模态间的关联以及怎样解释其推理过程。
与人类的交互
将来的研究还可以探索怎样将多模态RL模型与人类用户举行更有效的交互。这可能包罗开发更自然和用户友好的接口、提高模型对人类反馈的明确和使用能力以及探索模型在人类辅助下的连续学习机制。
应用领域的拓展
除了数学和科学推理任务外,将来的研究还可以探索将多模态RL模型应用于更广泛的领域,如医学图像诊断、自动驾驶和智能助手等。这可能需要针对特定领域的数据和任务特点举行模型定制和算法优化。
综上所述,本研究在多模态推理领域取得了重要盼望,通过开发MM-Eureka模型并探索其在大规模基于规则的RL训练中的体现,为将来的研究提供了新的思路和方法。然而,研究过程中也发现了一些局限性和寻衅,这些将成为将来研究的重要方向。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

伤心客

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表