论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
数据库
›
SqlServer
›
突破数学推理中的过程奖励模型:最新研究与实践指南 ...
突破数学推理中的过程奖励模型:最新研究与实践指南 ...
北冰洋以北
金牌会员
|
2025-1-25 13:17:12
|
显示全部楼层
|
阅读模式
楼主
主题
900
|
帖子
900
|
积分
2700
论文地点:https://arxiv.org/pdf/2501.07301
1.
研究配景:数学推理中的挑衅与机遇
比年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍旧会犯错误,比方计算错误或逻辑错误,导致错误的结论。即使终极答案正确,这些强盛的模型也可能编造看似合理的推理步调,终极答案创建在错误的计算或推导之上,这削弱了LLMs推理过程的可信度和可靠性。
为了应对这些挑衅,**过程奖励模型(PRMs)**应运而生。作为一种新兴的方法,PRMs旨在辨认并减少推理过程中的错误,从而实现对推理过程的更细粒度监督。
2.
研究挑衅:数据标注与评估方法的局限性
开发有效的PRMs面临两大主要挑衅:
数据标注的复杂性
:标注推理过程的正确性通常昂贵且耗时。虽然人工标注可以包管质量,但其高昂的本钱促使研究人员探索主动化标注方法。
评估方法的局限性
:现有研究主要依赖**最佳-N(BoN)**评估方法,该方法从N个候选中选出得分最高的响应。然而,BoN评估存在以下问题:
策略模型不可靠
:天生的响应可能答案正确但过程有误,导致BoN评估标准与PRM的过程验证目的不一致。
PRMs的容忍度
:PRMs对这种响应表现出容忍度,导致BoN得分虚高。
结果导向的评估
:现有PRMs的最低分会合在终极答案步调,表明BoN优化的PRMs已从过程导向转向结果导向的评估。
3.
我们的解决方案:共识过滤机制与综合评估框架
为了解决上述挑衅,我们提出了一种
共识过滤机制
,将
蒙特卡洛(MC)估计
与
LLM-as-a-judge
相结合。具体方法如下:
数据构建
:
MC估计
:通过估计当前步调导致正确终极答案的经验概率来评估步调的正确性。
LLM-as-a-judge
:使用LLM作为评判者,渐渐验证响应的推理过程。
共识过滤
:
仅保留当LLM-as-a-judge和MC估计在解决方案中错误推理步调位置达成一致的数据实例。
图1:使用不同PRMs在多个基准上的评估结果概览
4.
实验结果:显著提拔模型性能与数据服从
通过大量实验,我们验证了所提出方法的有效性:
与MC估计、LLM-as-a-judge和人工标注的比较
:
MC估计
:尽管数据量最大,但性能最差。
LLM-as-a-judge
:在数据量类似的情况下,表现出比MC估计更好的泛化性能。
人工标注
:尽管数据量最少,但性能最佳,表现出良好的泛化能力。
图2:使用软标签和硬标签练习的PRMs在过滤前后的最佳-8和PROCESSBENCH上的性能比较
共识过滤机制的上风
:
过滤后的数据集在PROCESSBENCH上的表现显著优于仅使用MC估计的数据集,而且在使用仅40%的数据时,到达了与LLM-as-a-judge相当的性能。
BoN评估的局限性
:
我们的分析表明,BoN评估存在与PRM目的不一致的问题,导致对PRM能力的评估禁绝确,并导致优化偏差,从过程导向转向结果导向的验证。
5.
最佳实践与将来方向
基于我们的研究,以下是一些最佳实践发起:
数据构建
:结合MC估计和LLM-as-a-judge进行数据过滤,可以显著提高数据质量和模型性能。
标签选择
:使用硬标签进行练习比软标签更有效,由于硬标签可以减少噪声并提高模型对正负标签的区分能力。
评估方法
:发起采用综合评估框架,结合响应级和步调级指标,以更全面地评估PRMs的能力。
将来研究方向包括:
探索更高效的数据构建方法
:比方,通过弱监督方法渐渐扩展高质量数据集。
开发更合适的搜索策略
:结合奖励和价值模型,同时思量当前步调的正确性和到达正确将来结果的可能性。
6.
结论
我们发布了一个有效的PRM,展示了其良好的性能,并通过大量实验验证了共识过滤机制的有效性。我们的研究为将来PRMs的构建和评估提供了名贵的见解和实践指南。
7.
参考文献
OpenAI. (2023). GPT-4 Technical Report.
Lightman et al. (2023). Let’s verify step by step.
Wang et al. (2024b). Math-shepherd: Verify and reinforce LLMs step-by-step without human annotations.
Zheng et al. (2024). Processbench: Identifying process errors in mathematical reasoning.
希望这篇推送能够资助你更好地理解PRMs的最新研究进展!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
北冰洋以北
金牌会员
这个人很懒什么都没写!
楼主热帖
Linux基础篇(6)---》常用命令大全(网络 ...
鸿蒙最新功能及承载设备详解:HarmonyO ...
Unity的AssetPostprocessor之Model之动 ...
超融合,变了?
一零零七、Docker快速入门
如何快速而优雅的解决问题(提问的智慧 ...
零代码,让业务人员实现应用创造自由 ...
计算机组成原理—运算方式
作为开发人员,您应该熟悉的 7 个 Java ...
Spring Cloud + Spring Boot + Mybatis ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表