【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
https://i-blog.csdnimg.cn/direct/c7d13912af6c4621befe2a2e22937a97.pngDeepSeek-V3技术报告
目录
DeepSeek-V3技术报告
1. 择要
2. 弁言
3. DeepSeek V3 架构
3.1 底子架构
3.1.1. 多头潜在注意力
3.1.2. DeepSeekMoE和无辅助损失的负载平衡
3.2 多令牌推测
4. 底子设施
4.1 计算集群
4.2 训练框架
4.2.1. DualPipe算法与计算通讯协同优化
4.2.2. 高效实现跨节点全到全通讯
4.2.3. 以最小的开销节省大量内存
4.3 FP8 训练
4.3.1. 混淆精度框架
4.3.2. 量化和乘法精度优化
4.3.3. 低精度存储和通讯
4.4 推理和部署
4.4.1. 预添补
4.4.2. 解码
4.5 硬件筹划的发起
4.5.1. 通讯硬件
4.5.2.计算硬件
5. 预训练
5.1 数据结构
5.2 超参数
5.3 长上下文扩展
5.4 评估
5.4.1. 评估基准
5.4.2. 评估结果
5.5 讨论
5.5.1. 多令牌推测(MTP)策略的溶解研究
5.5.2. 无辅助损失负载平衡策略的溶解研究
5.5.3. Batch-Wise负载平衡与Sequence-Wise负载平衡
6. 后训练
6.1 监视微调(SFT)
6.2 强化学习(RL)
6.3 评估
6.3.1. 评估设置
6.3.2. 标准评估
6.3.3. 开放式评估
6.3.4. DeepSeek-V3作为生成奖励模型
6.4 讨论
6.4.1. DeepSeek-R1蒸馏
6.4.2. 自我奖励
6.4.3. 多令牌(MTP)推测评估
7. 结论,局限和未来的工作
1. 择要
DeepSeek-V3是一款强大的混淆专家(Mixture-of-Experts, MoE)语言模型,总参数量为671B,每个Token激活37B参数。
为了实现高效的推理和成本效益高的训练,DeepSeek-V3接纳了多头潜在注意力(Multi-head Latent Attention, MLA)和DeepSeekMoE混淆专家模型架构,这些架构已经在DeepSeek-V2中得到了充分验证。
此外还接纳了两个策略,DeepSeek-V3开创了无辅助损失的负载平衡策略(auxiliary-loss-free strategy),并设定了多Token推测训练目标(Multi-Token Prediction, MTP)以增强性能。
DeepSeek-V3在14.8万亿高质量且多样化的token上进行了预训练,随后经过监视微调(SFT)和强化学习(RL)阶段,充分发挥了其本领。
全面评估表明,DeepSeek-V3在性能上超越了大部门开源模型,并达到了与领先闭源模型相当的程度。只管性能杰出,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。此外,其训练过程非常稳定,整个训练过程中没有出现任何不可规复的损失峰值,也未进行过任何回滚。
模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3获取。
https://i-blog.csdnimg.cn/direct/460b4393b38f4c3ab59be043b4c43258.png
2. 弁言
比年来,大语言模型经历了快速迭代和演进,逐步缩小了与通用人工智能(AGI) 的差距。除了闭源模型外,开源模型也取得显著希望,包罗 DeepSeek 系列(MoE)、LLaMA 系列(Dense)、Qwen 系列(Dense)和 Mistral 系列(MoE),这些模型正在努力缩小与闭源模型之间的差距。为了进一步突破开源模型的本领边界,研究团队开发了 DeepSeek-V3,这是一个拥有67B参数的大规模专家混淆(MoE)模型,其中每个Token激活37B参数。
基于提升性能和低沉成本的双重目标,在架构筹划方面,DeepSeek-V3 接纳了MLA来确保推理服从,并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证,证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些底子架构外,研究团队还引入了两项创新策略来进一步提升模型性能。起首,DeepSeek-V3 首创了无辅助损失的负载平衡策略,有效低沉了负载平衡对模型性能的负面影响。别的,DeepSeek-V3 接纳了多 token 推测训练目标MTP,这种方法在评估基准测试中展现出了显著的性能提升。
为了提高训练服从,该研究接纳了FP8 混淆精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案,其发展与硬件性能的提升密切相干。本研究首次在超大规模模型上乐成验证了 FP8 混淆精度训练框架的有效性。通过接纳 FP8 计算和存储技术,显著提升了训练速度并低沉了 GPU 内存占用。在训练框架方面,研究团队开发的 DualPipe 算法实现了高效的流水线并行处置惩罚,减少了流水线气泡,并通过计算和通讯并行处置惩罚的方式低沉了训练过程中的通讯开销。这种优化确保了纵然在模型规模进一步扩大的环境下,只要维持适当的计算通讯比例,就能在不同节点间实现细粒度专家分配,同时将全节点间的通讯开销降至靠近于零。此外,研究团队优化了跨节点的全节点通讯内核,充分利用了 InfiniBand(IB) 和 NVLink 的带宽性能。通过精细的内存优化,使得 DeepSeek-V3 的训练无需依赖成本高昂的张量并行技术。
在预训练过程中,我们在14.8T高质量和多样化的 token 上训练DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可挽回的损失峰值或需要回滚的环境。接下来,我们对DeepSeek-V3进行两个阶段上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段进一步扩展到128K。在此之后,我们在DeepSeek-V3的底子模型上进行了后训练,包罗监视微调(SFT)和强化学习(RL),以使其与人类偏好保持一致,并进一步开释其潜力。在后训练阶段,我们从DeepSeek-R1系列模型中提取推理本领,同时警惕地保持模型精度和生发展度之间的平衡。
我们在一系列全面的基准上评估了DeepSeek-V3。只管其训练成本经济,但综合评估表明 DeepSeek-V3-Base 已成为现在最强大的开源底子模型,特殊是在代码和数学方面。它的聊天版本也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与领先的闭源模型(包罗GPT-4o和Claude-3.5-Sonnet)相当的性能。
https://i-blog.csdnimg.cn/direct/549e3928e4254df7b49efa3588dcd8c9.png
末了,我们再次强调DeepSeek-V3的经济培训成本,如表1所示,这是通过我们对算法、框架和硬件的优化协同筹划实现的。在预训练阶段,在每万亿个令牌上训练DeepSeek-V3仅需要180K H800 GPU小时,即在我们拥有2048个H800 GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。结合1用于上下文长度扩展的19K GPU小时和用于后训练的5K GPU小时,DeepSeek-V3的完整训练仅耗费2.788M GPU小时。假设H800 GPU的租金为每小时2美元,我们的总培训成本仅为5.576M美元。请注意,上述成本仅包罗DeepSeek-V3的正式训练,不包罗前期对架构、算法或数据的研究和溶解实验相干的成本。
我们的重要贡献包罗:
架构:创新的负载平衡策略和训练目标
[*]在DeepSeek-V2高效架构的底子上,我们创新性提出了一种用于无辅助损失的负载平衡策略,最大限度地减少了因负载平衡而导致的性能降落。
[*]我们研究了多令牌推测(MTP)训练目标并证实它对模型性能有益。它还可以用于推测解码以加快推理。
预训练:迈向终极的训练服从
[*]我们筹划了一个FP8混淆精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。
[*]通过算法、框架和硬件的共同筹划,我们克服了跨节点MoE训练中的通讯瓶颈,实现了近乎完全的计算与通讯高度重叠。这显著提高了我们的训练服从,低沉了训练成本,使我们能够在不增长额外成本的环境下进一步扩大模型规模。
[*]我们仅以2.664M H800 GPU小时的经济成本,在14.8T的 token 上完成了DeepSeek-V3的预训练,生产处现在最强大的开源底子模型。预训练后的后续训练阶段仅需0.1M GPU小时。
后训练:从DeepSeek-R1中蒸馏知识
[*]我们引入了一种创新的方法,将头脑链(CoT)模型(特殊是DeepSeek R1系列模型)的推理本领迁徙到标准 LLM中,特殊是DeepSeek-V3。我们的管道将 R1的验证和反思模式优雅地整合到DeepSeek-V3中,显著提高了其推理性能。同时,我们还保持对DeepSeek-V3输出风格和长度的控制。
核心评估结果总结
知识:(1)在MMLU、MMLU Pro和GPQA等教诲基准测试中,DeepSeek-V3的表现优于全部其他开源模型,在MMLU上达到88.5,在MMLU-Pro上达到75.9,在GPQA上达到59.1。它的性能可与GPT-4o和Claude-Connect-3.5等领先的闭源模型相媲美,缩小了该领域开源和闭源模型之间的差距。(2) 对于真实性基准测试,DeepSeek-V3在SimpleQA和中文SimpleQA上的开源模型中表现出了杰出的性能。虽然它在英语事实知识(SimpleQA)方面落后于GPT-4o和Claude-Connect-3.5,但在汉语事实知识(Chinese SimpleQA)上超越了这些模型,突显了它在汉语事实信息方面的优势。
代码、数学和推理:(1)DeepSeek-V3在全部非长期CoT开源和闭源模型中的数学相干基准测试中取得了开始进的性能。值得注意的是,它以致在特定的基准测试(如MATH-500)上表现优于o1预览版,展示了其强大的数学推理本领。(2)在编码相干任务方面,DeepSeek-V3成为LiveCodeBench等编码竞争基准测试中表现最佳的模型,巩固了其作为该领域领先模型的地位。对于工程相干任务,虽然DeepSeek-V3的性能略低于Claude-Connect-3.5,但它仍然远远凌驾了全部其他模型,这表明了它在各种技术基准上的竞争力。
在本文的其余部门,我们起首具体先容DeepSeek-V3模型架构(第3节)。随后,我们先容我们的底子设施,包罗计算集群、训练框架、FP8训练支持、推理部署策略以及对未来硬件筹划的发起(第4节)。接下来,我们描述预训练过程,包罗训练数据构建、超参数设置、长上下文扩展技术、相干评估及讨论(第5节)。然后,我们讨论后训练的努力,包罗监视微调(SFT)、强化学习(RL)、相应的评估和讨论(第6节)。末了,我们总结这项工作,讨论DeepSeek-V3的现有局限性,并提出未来研究的潜在方向(第7节)。
3. DeepSeek V3 架构
我们起首先容DeepSeek-V3的根本架构,其特点是由多头潜在注意力(MLA) 实现高效推理和DeepSeekMoE 实现经济训练模型架构。然后,我们提出一个多令牌推测(MTP)训练目标,我们观察到这可以提高在评估基准上的团体性能。DeepSeek-V3团体遵循DeepSeek-V2的筹划方案。
3.1 底子架构
DeepSeek-V3的根本架构仍在Transformer框架内。为了高效推理和经济训练,DeepSeek-V3还接纳了由DeepSeek-V2充分验证过的MLA和DeepSeekMoE。与DeepSeek-V2相比,一个破例是我们为DeepSeekMoE引入了一种无辅助损失的负载平衡策略,以减轻确保负载平衡的努力而导致的性能降落。图2展示了DeepSeek-V3的根本架构,本节我们将扼要回首MLA和DeepSeekMoE的细节。
https://i-blog.csdnimg.cn/direct/56b277c5bc974c7b9ff1be9f84677f89.png
3.1.1. 多头潜在注意力
DeepSeek-V3 在注意力机制方面接纳了 MLA 架构。设向量维度为 d,注意力头数为 https://latex.csdn.net/eq?n_h,每个头的维度为https://latex.csdn.net/eq?d_h, https://latex.csdn.net/eq?h_t%20%5Cin%20R%5Ed表现给定注意力层中第 t 个 token 的注意力输入。MLA 的核心是,对注意力键和值进行低秩联合压缩,以减少推理过程中的键值(KV)缓存开销:
https://i-blog.csdnimg.cn/direct/91f22194be994517be8dadbd5adb3f87.png
其中 https://latex.csdn.net/eq?c%5E%7BKV%7D_t%20%5Cin%20R%5E%7Bd_c%7D表现键值的压缩潜在向量, https://latex.csdn.net/eq?d_c%20%28%3C%3C%20d_h%20n_h%29表现 KV 压缩维度, https://latex.csdn.net/eq?W%5E%7BDKV%7D%20%5Cin%20R%5E%7Bd_c%20%5Ctimes%20d%7D为维度下投影变换矩阵, https://latex.csdn.net/eq?W%5E%7BUK%7D%2C%20W%5E%7BUV%7D%20%5Cin%20R%5E%7Bd_hn_h%20%5Ctimes%20d_c%7D分别为键和值的维度上投影变换矩阵。 https://latex.csdn.net/eq?W%5E%7BKR%7D%5Cin%20R%5E%7Bd%5ER_h%20%5Ctimes%20d%7D用于生成携带旋转位置编码(Rotary Positional Embedding, RoPE) 的解耦键矩阵;RoPE(·)表现旋转位置编码矩阵的应用操作;[·;·]表现向量连接操作。注意,对于MLA ,仅需在生成过程中缓存蓝色方框内高亮标志的向量( 即https://latex.csdn.net/eq?c%5E%7BKV%7D_t和https://latex.csdn.net/eq?k%5ER_t),这种筹划显著低沉了 KV 缓存空间,同时保持了与标准多头注意力相当的性能程度。
对于注意力查询部门,我们也进行了低秩压缩,可以在训练过程中有效减少激活内存占用:
https://i-blog.csdnimg.cn/direct/a5fabf65349e4aed8b0321ea95582a53.png
其中 https://latex.csdn.net/eq?c%5E%7BQ%7D_t%20%5Cin%20R%5E%7B%7Bd%7D%27_c%7D表现查询的压缩潜在向量, https://latex.csdn.net/eq?%7Bd%7D%27_c%20%28%3C%3C%20d_h%20n_h%29表现查询压缩维度, https://latex.csdn.net/eq?W%5E%7BDQ%7D%20%5Cin%20R%5E%7B%7Bd%7D%27_c%20*%20d%7D, https://latex.csdn.net/eq?W%5E%7BUQ%7D%20%5Cin%20R%5E%7Bd_hn_h%20%5Ctimes%20%7Bd%7D%27_c%7D分别为查询的维度降维和升维变换矩阵, https://latex.csdn.net/eq?W%5E%7BQR%7D%5Cin%20R%5E%7Bd%5ER_hn_h%20%5Ctimes%20d%7D用于生成携带旋转位置编码的解耦查询矩阵。
终极,将注意力查询( https://latex.csdn.net/eq?q_%7Bt%2Ci%7D )、键( https://latex.csdn.net/eq?k_%7Bj%2Ci%7D )和值( https://latex.csdn.net/eq?v%5EC_%7Bj%2Ci%7D)组合得到终极的注意力输出 https://latex.csdn.net/eq?u_t:
https://i-blog.csdnimg.cn/direct/cf895da27f7a49e880caf24e3759c5e9.png
其中https://latex.csdn.net/eq?W%5Eo%20%5Cin%20R%5E%7Bd%5Ctimes%20d_hn_h%7D为输出维度变换矩阵。
3.1.2. DeepSeekMoE和无辅助损失的负载平衡
DeepSeekMoE的根本架构。对于前馈网络(FFNs),DeepSeelk-V3使用DeepSeekMoE架构。与传统的MoE架构如GShard 相比,DeepSeekMoE使
用更细粒度的专家,并将一些专家隔离为共享专家。令https://latex.csdn.net/eq?u_t表现第t个标志的FFN输入,我们计算FFN输出https://latex.csdn.net/eq?%7Bh%7D%27_t如下:
https://i-blog.csdnimg.cn/direct/6b6469f522f846459169c421edde4242.png
其中,https://latex.csdn.net/eq?N_s和https://latex.csdn.net/eq?N_r分别表现共享专家和路由专家的数量;https://latex.csdn.net/eq?FFN_i%5E%7B%28s%29%7D%28%5Ccdot%29和https://latex.csdn.net/eq?FFN_i%5E%7B%28r%29%7D%28%5Ccdot%29分别表现第 i 位共享专家和第 i 位路由专家; https://latex.csdn.net/eq?K_r表现已激活的路由专家的数量;https://latex.csdn.net/eq?g_%7Bi%2Ct%7D是第 i 位专家的门控值; https://latex.csdn.net/eq?s_%7Bi%2Ct%7D是专家亲和力的象征; https://latex.csdn.net/eq?e_i是第i个路由专家的质心向量; https://latex.csdn.net/eq?Topk%28%5Ccdot%2CK%29表现在为第 K 个令牌和全部路由专家计算的亲和度得分中,包含 K 最高得分的集合。与DeepSeek-V2略有不同,DeepSeek-V3使用 sigmoid 函数计算亲和度分数,并在全部选定的亲和度分数之间应用归一化以产生门控值。
无辅助损失的负载平衡。对于MoE模型,不平衡的专家负载我将导致路由崩溃,并低沉在具有专家并行性的场景中的计算服从。传统解决方案通常依赖于辅助损失来避免负载不平衡。然而,过大的辅助损失会损害模型性能。为了在负载平衡和模型性能之间取得更好的权衡,我们开创了一种无辅助损失的负载平衡策略以确保负载平衡。具体来说,我们为每个专家引入一个偏置项https://latex.csdn.net/eq?b_i并将其添加到相应的亲和力得分https://latex.csdn.net/eq?s_%7Bi%2Ct%7D中以确定top-K路由:
https://i-blog.csdnimg.cn/direct/281c8eb9e8e54c14b92bbcfa1efc8405.png
请注意,偏置项仅用于路由。门控值,将乘以FFN输出,仍然从原始亲和力得分https://latex.csdn.net/eq?s_%7Bi%2Ct%7D派生。在训练期间,我们连续监控每个训练步调中整个批次的专家负载在每个步调结束时,如果对应的专家负载过重,则将偏置项减少
页:
[1]