Llama-Nemotron 超越 DeepSeek R1 成开源第一？

北冰洋以北 发表于 2025-6-14 17:34:03

从2025年3月起，英伟达分阶段推出Llama-Nemotron眷属的不同规格模型。Nano和Super版本在3月先行表态，而Ultra版本作为旗舰型号于4月8日发布。Ultra版本的发布直接挑衅了同期Meta的Llama 4系列，仅用三天时间便在多项基准测试中超越后者。
或者请移步个人vx： alayanew
原文阅读：https://mp.weixin.qq.com/s/HlMuViKehGc0A1CkYrpdxA
截至 2025 年 4 月，其旗舰模型 LN-Ultra 荣膺最 “智能” 开源模型称呼。以253B参数（仅为DeepSeek-R1的1/3参数量）在 GPQA-Diamond（76.01分）、IFEval（89.45分）等关键基准中凌驾DeepSeek-R1，在单8xH100节点上的推理吞吐量达DeepSeek-R1的4倍。
5月5日，英伟达发布了技能报告，公开了模型从代码到数据集的统统，诚意满满：
完整模型权重：****三个尺寸任选择
练习数据集：****包罗3300万条数学/代码/科学问答数据
全套工具链：****NeMo、Megatron-LM等开发神器

[*]论文标题：Llama-Nemotron: Efficient Reasoning Models
[*]arXiv 地点：https://arxiv.org/pdf/2505.00949
[*]代码地点：https://github.com/NVIDIA/NeMo
[*]数据集：https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
性能表现
实力惊艳行业
在权威机构 Artificial Analysis 停止2025年4月测评中，Llama-Nemotron 系列模型表现堪称惊艳（如图 1），超越DeepSeek R1，在开源模型中排到了第1。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9pbWdfY29udmVydC81NDNmMDI2ZTg4MDgxNTE0MmM4YWQwNWM1NTM5YzA4Mi53ZWJwP3gtb3NzLXByb2Nlc3M9aW1hZ2UvZm9ybWF0LHBuZw==
与其他顶尖推理模型相比，LN-Ultra 在多个推理和非推理基准测试中都能拔得头筹。像是在图 2 展示的科学推理（GPQA Diamond）、指令依照（IFEval）、工具调用（BFCLv2）等测试场景下，LN-Ultra 的准确率远超同类开源模型，甚至比一些需要更高硬件配置的模型表现还要精彩，彰显了它强大的实力。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9pbWdfY29udmVydC9hYjE5MWZiMmQxNTg4YjEyODEwZDY4OGRmNTcxNjU0My5wbmc=
高效推理

创新优化框架
为了实现高效推理，LN-Super 和 LN-Ultra 模型借助 Puzzle 框架进行了深度优化。Puzzle 框架是一种神经架构搜索（NAS）框架，它能在现实摆设的束缚条件下，将大语言模型转化为硬件高效的变体（参考图 3）。

https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9pbWdfY29udmVydC82YmE1ZDY1ZDU0ZWU1MjlkZTBlMTNlM2U4ZjQyY2NlNS53ZWJwP3gtb3NzLXByb2Nlc3M9aW1hZ2UvZm9ybWF0LHBuZw==
它通过对 Llama 3 系列模型应用块级局部蒸馏，构建出可供选择的 transformer 块库。在这个过程中，一些块会去除留意力机制，镌汰计算量和内存消耗；同时，还会调解前馈网络（FFN）的维度，实现不同粒度的压缩。之后，利用混淆整数规划（MIP）求解器，从块库中为每一层选择合适的块，组装成完整的模型，以到达在给定束缚条件下的最优配置。
对于 LN-Ultra 模型，还引入了 FFN Fusion 技能。在 Puzzle 框架去除部分留意力层后，模型中会出现一连的 FFN 块，FFN Fusion 技能会将这些一连的 FFN 块更换为更少但更宽的 FFN 层，这些层可以并行实行，从而镌汰了次序步调，进步了计算利用率，明显降低了推理延迟。
经过一系列优化，LN-Super 和 LN-Ultra 在推理效率上有了极大提升。LN-Super 在单 NVIDIA H100 GPU（张量并行度为 1）上运行时，相比 Llama 3.3 - 70B-Instruct，吞吐量提升了 5 倍；LN-Ultra 针对 8 GPU 的 H100 节点进行优化，相比 Llama 3.1 - 405B-Instruct，延迟降低了 1.71 倍。
从图 4 可以直观地看到，在不同设置下，LN-Ultra 在 GPQA-Diamond 准确率和处理吞吐量上都优于 DeepSeek-R1 和 Llama 3.1 - 405B，在精度 - 吞吐量帕累托曲线上占据优势。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9pbWdfY29udmVydC8xYTU4M2EyNzk1YjRiMWQ2ZDI2OGYyMzQ1Njc1NGY0MC53ZWJwP3gtb3NzLXByb2Nlc3M9aW1hZ2UvZm9ybWF0LHBuZw==
报告通过详确的表格与图表，展示了各模型在不同任务中的表现：

[*]LN-Nano（8B）：手机都能跑，在推理和谈天基准上表现精彩，尤其是在小数据集上；
[*]LN-Super（49B）：全能选手，在推理和谈天基准上都具有竞争力，可以同时满足结构化推理和非结构化谈天的需求；
[*]LN-Ultra（253B）：科研神器，在推理和谈天基准上均优于其他公开模型，8块H100显卡高效运行。
练习流程
复杂严谨、合成数据赋能
Llama-Nemotron 系列模型的练习过程复杂且严谨，主要分为五个阶段：

[*]架构优化阶段：运用神经架构搜索（NAS）提升推理效率，并引入 FFN Fusion 技能；
[*]知识强化阶段：通过知识蒸馏与持续预练习，加强块间兼容性，弥补架构优化带来的质量损失；
[*]监督微调阶段：基于标准指令数据与强大西席模型（如 DeepSeek-R1）的推理轨迹进行练习，赋予模型多步推理能力，并学会依据 “detailed thinking on/off” 指令控制推理行为；
[*]强化学习阶段：针对 LN-Ultra 模型，利用复杂数学和 STEM 数据集，通过 Group Relative Policy Optimization（GRPO）算法，进一步提升科学推理能力；
[*]对齐优化阶段：聚焦指令依照与人类偏好优化，完成模型的最后校准。
练习过程中，数据质量与多样性至关重要。团队精心构建合成数据集，覆盖推理与非推理数据。以数学推理数据为例，从 Art of Problem Solving（AoPS）社区论坛采集大量数学题目，经题目提取、分类、答案提取、基准净化等处理，再借助 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成多种解决方案，经严格筛选后，确保数据的高质量与有用性。
推理切换
动态****满足多元需求
Llama-Nemotron 系列模型一大创新点是支持动态推理切换。用户在推理时，只需通过一个轻量级的系统提示 “detailed thinking on/off”，就能在标准谈天模式和推理模式之间自由切换。这一设计非常贴心，既满足了一样平常通用场景下的利用需求，又能在需要深度推理的任务中提供强大支持，而且无需利用不同的模型或架构，大大进步了模型的实用性和机动性。
开源理念
开放许可，支持商业利用
NVIDIA 发布 Llama-Nemotron 系列模型时，采用开放许可，将模型权重与部分练习数据在 Hugging Face 平台公开，依照 NVIDIA Open Model License 和 Llama 社区许可协议，支持商业利用。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com ToB IT社区-企服评测·应用市场's Archiver

Llama-Nemotron 超越 DeepSeek R1 成开源第一？