IT评测·应用市场-qidao123.com

标题: 【Reasoning】LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-L [打印本页]

作者: 风雨同行    时间: 2025-3-14 08:53
标题: 【Reasoning】LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-L
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

arxiv: https://arxiv.org/abs/2410.02884
github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://github.com/trotsky1997/MathBlackBox/tree/main
问题背景

复杂的数学推理,特别是奥林匹克级别的题对大语言模子来说仍然具有很大挑衅。在现有的研究中:

本文LLaMA-Berry框架通过将Self-Refine应用于Monte Carlo Tree Search (SR-MCTS),显著进步了大型语言模子的解生成效率,然后以有向图的形式构建一个全局输赢矩阵来盘算最终的分位数分数,结合PPRM将绝对评分转换为偏好猜测任务,构建了解决方案之间的偏好,而且使用加强EBC方法盘算得到最终的全局分位得分。
本文方法

(1)Self-Refine应用于MCTS

MCTS具有四个关键步调:选择、扩展、评估、反向传播。在选择阶段,使用UCT(应用于树的上置信边界)来平衡探索和利用选择的节点:

N(s):访问节点s的次数,N(s, a):动作的频率,c:控制探索的参数。评估阶段通常采用模拟或者启发式的方法来评估这些节点的Q。

为了控制搜索树的增长,SR-MCTS方法限制了最大rollout次数Nmax。当达到限制条件时,搜索过程终止,这对树的无界扩展施加了限制。SR-MCTS的首要目标是最大化所有现有节点S的最高Q值,引导我们走向最理想的结果S *,确保搜索过程有效地收敛到高质量的解决方案。
(2)成对偏好奖励模子

现有的奖励模子通常通过给出绝对分数来评估解决方案,如过程奖励模子和结果奖励模子。然而,基于分数的奖励模子在利用大型语言模子的指令遵循本领或有效处置惩罚得分尺度的变化方面可能会有所不足,特别是当解决方案之间的差异很细微时。为了解决这个问题,本文提出了成对偏好奖励模子,该模子利用了一个综合偏好数据集,此中包含来自PRM和ORM方法的大量样本学习数学解之间的偏好关系。

                                    ϕ                              \phi                  ϕ表现奖励模子的参数。a1和a2是两个不同的解决方案。                                             a                            1                                  >                                   a                            2                                       a_1>a_2                  a1​>a2​使用LLM生成的token表现。


将包含数百万个数学问题解决方案对的配对偏好数据集D转换为适合问答任务的数据集D '。作者采用DPO方法对模子举行训练,以进步其在偏序猜测问答任务中的性能。

作者的合成数据来源于两个数据集RM800K 和OpenMathInstruct-1。从MATH数据集网络的PRM800K数据集包含大量分步解决问题的答案,每个步调都有手动注释。主要利用该数据集生成基于逐步过程质量的比较分析的成对答案。OpenMathInstruct-1数据聚集并了来自GSM8K和MATH数据集的数据,这些数据集已被手动注释以确保结果的精确性。我们使用该数据聚集成基于结果质量的比较分析对。最终,文中形成了一个包含7,780,951个条目的数据集,采用DPO方式举行训练,用于训练PPRM模子。
(3)加强Borda计数方法

尽管PPRM允许直接比较两个解决方案的质量,但仍然需要将这些局部偏好转换为有凝聚力的全局排名,以得到对答案的全面评估。这种转换过程可以形式化为与学习排序(LtR)方法相关的全局最优排序聚合(GORA)问题。作者提出加强Borad技能(EBC)方法,该方法是将淳厚Borda技能算法与与Floyd-Warshall算法举行结合得到全局评估结果。

该矩阵可以被视为一个有向图G=(V, E)的邻接矩阵,此中每个解ai对应一个极点vi,而且在mij=1时,存在一条边e=(vi, vj),表明解ai优于解aj。


末了,一个解决方案的分数Q(v)是局部胜率Ql(v)和全局分位数分数Qg(v)的加权和。
(4)Prompt设计和示例



实验设置


实验结果

(1)数据集上情况


LlaMA-Berry方法对Llama-8B-Instruct在各项数据集上都有所提拔,具体来说,在Llama-8B-Instruct的16次rollout中,在三个基准测试中,问题的解决率进步了35%以上。LlaMA-Berry@16在四个基准上的问题解题率都超过Qwen2-Math-72B-Instruct,在有挑衅的OlympiadBench数据集上LLaMA-Berry在OlympiadBench和College Math上的得分分别达到55.1%和68.9%,分别高出11.9%和21%。
除了在数学推理方面表现精彩,该方法在各种科学和工程领域也表现精彩。例如,它在MMLU STEM和GPQA diamond等基准测试中取得了最佳性能。这证实白该方法的鲁棒性和通用性,使其能够解决广泛的技能挑衅,并突出了其在研究和实际场景中更广泛应用的潜力。

LLaMA-Berry在这些基准测试中具有很强的竞争力,证实白它在复杂推理方面的本领。值得留意的是,在最具挑衅性的AIME2024基准上,该方法将基本模子的求解率从2/30进步到8/30,超过了除o1外的其他模子。

当难度从GSM8K增长到GSMHard时,RAP和ToT的性能相对于Few-shot CoT和One-turn Self-Refine等方法有更显著的降落的趋势。作者怀疑其缘故起因可能是大型语言模子的自我评价本领较弱,这可能导致推理步调效率低下。此外,基于树的方法可能比直接的方法产生更多的盘算开销。相比之下,rStar和本文的方法保持了正向的输出性能趋势,突出了两种方法更高的搜索效率。
为了公平比较rStar 、自一致性和本文的算法对Llama-3-8B-Instruction的报告结果,作者还使用Llama-3-8B-Instruction作为基础模子,而不是3.1版本。作者观察到,文中的方法以更少的摆设实现了划一甚至更好的性能。具体来说,文中的方法使用多数投票指标在GSM8K、GSMHARD和MATH500基准测试上分别实现了88.1%、31.5%和39.6%的准确率,这与其他方法的准确率水平类似,而只消耗了rStar的1/2和Self-consistency的1/8的推出时间。这为EBC方法的有效性和动态修剪策略所促进的积极探索提供了令人佩服的验证。
(2)消融实验


作者举行了消融验来评估LLaMA-Berry的关键组件,使用问题解决率对GSM8K和AIME2024举行度量。Zero-shot CoT表现基座模子推理本领。分别对迭代Self-Refine、只有SR-MCTS,有SR-MCTS和PPRM举行了测试。
实验结果表明,MCTS的引入有效地缓解了迭代Self-Refine方法中有缺陷的批评导致的解退化为次优结果的问题。GSM8K数据集上,在8和16rollout时,在只有SR-MCTS时,问题解决率分别进步了3.1%和3.2%。在又参加了PPRM组件后,问题解决率又分别进步了13%和14.7%。AIME2024数据集上,逐个包含这两个组建后,在8次和16次roloout的情况下,问题解决率从6.7%(2/30)进步到16.7%(5/30)和26.7%(8/30)。
结果夸大了在解决复杂问题时将Self-Refine方法与PPRM相结合的有效性。self-reward和PPRM之间的对比夸大了设计能够更有效地引导搜索过程奖励机制的重要性。PPRM为模子提供了更全面的鼓励,从而培养了更有效的解决问题的策略。
(3)缩放规律研究

为了探索在推理时间内扩展的潜力和趋势,作者在三个不同难度级别的基准中展示了rollout的问题的解决率。通太过析图中的性能,可以发现随着rollout数目不停增长,加强了不同基准测试的模子性能,这些改进的程度取决于基准测试的复杂性和基础模子的推理本领。这些曲线夸大了LLaMA-Berry框架的性能受益于在推理期间扩大rollout,类似于OpenAI中的观察结果。然而,正如在GSM8K数据集中所看到的那样,存在上限限制,这表明基本模子在推理和『细化方面』的本领在决定团体性能方面起着至关重要的作用。

范围性



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4