梦见你的名字 发表于 2025-2-13 19:56:41

AI教母李飞飞团队训练出媲美DeepSeek R1的推理模型,云计算费用不到50美元

https://i-blog.csdnimg.cn/direct/8eef5c4020a5421cad2a1682e46af527.png
【论文标题】 s1: Simple test-time scaling
【论文链接】 https://arxiv.org/abs/2501.19393v2
【代码链接】 https://github.com/simplescaling/s1
【论文单位/作者】斯坦福大学/李飞飞团队
https://i-blog.csdnimg.cn/direct/2e02e08d947b4e4ba497cff1b0c08956.jpeg
注:“不到50美元”仅为云计算服务费用,不包罗服务器、显卡等硬件投入费用,因这部分已经过云厂商负担。
【摘要】✨

2025 年 1 月,李飞飞团队提出了一种极简的测试时扩展(test-time scaling)方法,仅需对预训练模型进行少量监督微调(SFT)并结合动态推理控制技能,即可显著提升语言模型的数学推理本事。团队经心构建了包含 1000 个问题及对应推理过程的小型数据集 s1K,该数据集依据难度、多样性和质量三大标准进行严格筛选。同时,开辟了预算逼迫(budget forcing)技能,此技能可在测试阶段精准控制模型的思索时间,机动地逼迫终止或延伸模型的推理过程。
【技能亮点/创新点】✨


[*] s1K数据集计划:
从59K初始数据中筛选,确保问题难度高(基于模型错误率和推理长度)、领域多样(覆盖数学、物理、化学等)、格式规范; 仅用1K样本微调即靠近全量数据性能,验证“少而精”的数据价值。
[*] 预算逼迫(Budget Forcing):
预算逼迫是一种在测试时控制模型计算资源利用的方法,旨在通过调治模型的“思索”时间来优化其性能。详细来说:

[*] 设定步调限制:为模型设置一个固定的步调数限制,比如16、32等。每个步调可以包含肯定数目的标志(tokens),这些标志代表了模型的推理过程。
[*] 控制竣事条件:
当模型尝试竣事其推理过程时,如果尚未达到预设的步调限制,则通过追加“Wait”标志的方式强迫模型继续思索。这现实上是在告诉模型:“你还没有完成思索,请再思量一下你的答案。”
如果达到了步调限制,纵然模型还想继续天生新的标志,系统也会强行终止其思索过程,并促使模型进入回答模式。
[*] 效果分析:实验表明,这种方法有助于提高模型的正确性。例如,在AIME24使命中,当允许模型进行更长时间的思索(即增长步调数)时,其表现从23.3%提升到了36.7%。

https://i-blog.csdnimg.cn/direct/74c9ec92338e47e38fa569d1bdadc75b.png

[*]并行扩展尝试:
并行扩展尝试指的是利用多种策略来增长模型在测试时的计算负担以期得到更好的性能。以下是详细的实现方式之一:

[*]多数投票机制:对于每一个输入问题,运行多个独立的模型实例(如64次),然后根据大多数模型的选择来决定最终的答案。这种做法类似于民主投票,认为多数意见往往更靠近正确答案。
[*]例如,给定一个样本,执行64次评估,温度参数设为1(这意味着较高的随机性)。然后,比力差别次数(2, 4, 8, 16, 32, 和 64)下的多数投票效果,观察随着到场投票的模型数目增长,正确性的变化情况。
[*]尽管增长了计算本钱,但并行扩展尝试并不总是能带来预期中的性能提升。相比之下,预算逼迫因其简单且有效的特性而被证明是一个更为成功的策略。

【工作原理/方法】
页: [1]
查看完整版本: AI教母李飞飞团队训练出媲美DeepSeek R1的推理模型,云计算费用不到50美元