【论文翻译】DeepSeek-V3论文翻译——DeepSeek-V3 Technical Report——第 ...

打印 上一主题 下一主题

主题 1838|帖子 1838|积分 5514

论文原文链接:DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub
        特殊声明,本文不做任何贸易用途,仅作为个人学习相关论文的翻译记载。本文对原文内容直译,统统以论文原文内容为准,对原文作者表示最大的敬意。如有任何侵权请接洽我下架相关文章。

目录
DeepSeek-V3 技术陈诉
择要
1. 引言
2. 架构
2.1. 根本架构
2.1.1. 多头潜在留意力
2.1.2. 无辅助丧失负载均衡的 DeepSeekMoE
2.2 多标记猜测

DeepSeek-V3 技术陈诉

择要

        我们提出了 DeepSeek-V3,这是一种强大的专家混合(MoE)语言模子,总参数目为 6710 亿,此中每个 token 仅激活 370 亿参数。为了实现高效推理和本钱效益高的练习,DeepSeek-V3 采用了多头潜在留意力(MLA)和 DeepSeekMoE 结构,这些结构在 DeepSeek-V2 中已得到充实行证。别的,DeepSeek-V3 初次引入了一种无辅助丧失的负载均衡计谋,并设定了多 token 猜测练习目的,以实现更强的性能。我们在 14.8 万亿个多样化且高质量的 token 上对 DeepSeek-V3 举行了预练习,随后通过监督微调和强化学习阶段充实发挥其能力。全面评估表明,DeepSeek-V3 的性能优于其他开源模子,并到达了与领先的闭源模子相称的水平。尽管性能杰出,DeepSeek-V3 的完整练习仅需 278.8 万 H800 GPU 小时。别的,其练习过程非常稳定。在整个练习过程中,我们未曾遇到不可规复的丧失峰值,也未举行任何回滚。模子检查点可在以下地址获取:GitHub - deepseek-ai/DeepSeek-V3

图 1 | DeepSeek-V3 及其对比模子的基准测试性能。

1. 引言

        比年来,大型语言模子(LLMs)正经历快速迭代和演进(Anthropic, 2024; Google, 2024; OpenAI, 2024a),渐渐缩小与人工通用智能(AGI)之间的差距。除了闭源模子之外,开源模子(包括 DeepSeek 系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA 系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen 系列(Qwen, 2023, 2024a,b)以及 Mistral 系列(Jiang et al., 2023; Mistral, 2024))也在不断取得重大进展,积极缩小与闭源模子的性能差距。为了进一步推动开源模子能力的界限,我们扩大了模子规模,并推出 DeepSeek-V3——一个拥有 6710 亿参数的专家混合(MoE)模子,此中每个 token 仅激活 370 亿参数。
        从前瞻性角度出发,我们始终寻求强大的模子性能和经济可控的盘算本钱。因此,在架构方面,DeepSeek-V3 仍采用多头潜在留意力(MLA)(DeepSeek-AI, 2024c)以实现高效推理,并采用 DeepSeekMoE(Dai et al., 2024)以优化练习本钱。这两种架构在 DeepSeek-V2(DeepSeek-AI, 2024c)中已被验证,可以或许在保证妥当模子性能的同时,实现高效练习和推理。除了基础架构之外,我们还引入了两种额外计谋以进一步提升模子能力。首先,DeepSeek-V3 初次提出了一种无辅助丧失(auxiliary-loss-free)计谋(Wang et al., 2024a)来实现负载均衡,旨在减少负载均衡对模子性能的负面影响。其次,DeepSeek-V3 采用了多 token 猜测练习目的,我们观察到这一方法可以或许在多个评测基准上提升团体性能。
        为了实现高效练习,我们支持 FP8 混合精度练习,并对练习框架举行了全面优化。低精度练习已成为高效练习的一个重要办理方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b),其发展与硬件能力的进步密切相关(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)。在本研究中,我们引入了一种 FP8 混合精度练习框架,并初次在超大规模模子上验证了其有用性。通过支持 FP8 盘算与存储,我们在加速练习的同时减少了 GPU 内存利用。别的,在练习框架方面,我们设计了 DualPipe 算法,以实现高效的流水线并行(pipeline parallelism)。该算法减少了流水线气泡(pipeline bubbles),并通过盘算-通信重叠(computation-communication overlap)隐藏了大部分练习过程中的通信开销。该重叠机制确保在模子规模进一步扩大的环境下,只要保持盘算与通信比率恒定,我们仍能在多个节点上摆设细粒度专家,并实现靠近零的 all-to-all 通信开销。别的,我们还开发了高效的跨节点 all-to-all 通信内核,以充实利用 InfiniBand(IB)和 NVLink 带宽。别的,我们精心优化了内存占用,使得 DeepSeek-V3 的练习无需依赖昂贵的张量并行(tensor parallelism)。综合以上优化,我们成功实现了高效的练习流程。
        在预练习过程中,我们在 14.8 万亿高质量且多样化的 token 上练习 DeepSeek-V3。整个预练习过程非常稳定。在整个练习过程中,我们未曾遇到不可规复的丧失峰值,也未举行任何回滚操作。接下来,我们为 DeepSeek-V3 举行两阶段的上下文长度扩展。在第一阶段,我们将最大上下文长度扩展至 32K;在第二阶段,进一步扩展至 128K。随后,我们对 DeepSeek-V3 的基础模子举行后练习,包括监督微调(SFT)强化学习(RL),以使其对齐人类偏好,并进一步开释其潜力。在后练习阶段,我们从 DeepSeek-R1 系列模子中蒸馏推理能力,同时精心维护模子的准确性与天生长度之间的平衡。
        我们在一系列全面的基准测试上对 DeepSeek-V3 举行了评估。尽管其练习本钱经济,综合评估效果表明 DeepSeek-V3-Base 是当前最强的开源基础模子,特殊是在代码数学方面表现突出。其谈天版本(chat version)同样优于其他开源模子,并在一系列尺度化和开放式基准测试上 到达了与领先闭源模子(如 GPT-4o Claude-3.5-Sonnet)相称的性能
        最后,我们再次强调 DeepSeek-V3 的经济练习本钱,其练习本钱已在表 1 中总结,并通过我们优化的算法、框架和硬件的协同设计得以实现。在预练习阶段,DeepSeek-V3 每练习 1 万亿个 token 仅需 18 万 H800 GPU 小时,即在我们拥有 2048 张 H800 GPU 的集群上,仅需 3.7 天。因此,我们在不到两个月内完成了整个预练习,总计耗费 266.4 万 GPU 小时。加上11.9 万 GPU 小时的上下文长度扩展练习和5000 GPU 小时的后练习,DeepSeek-V3 完整练习总共仅耗费 278.8 万 GPU 小时。假设 H800 GPU 的租赁代价为每小时 2 美元,则我们的总练习本钱仅为 557.6 万美元。需要留意的是,上述本钱仅包括 DeepSeek-V3 的正式练习本钱,并不包括先前关于架构、算法或数据的研究和溶解实行的相关费用。

表 1 | DeepSeek-V3 的练习本钱(假设 H800 GPU 的租赁代价为每 GPU 小时 2 美元)。

        我们的主要贡献包括:
架构:创新的负载均衡计谋与练习目的


  • 在 DeepSeek-V2 高效架构的基础上,我们首创了一种无辅助丧失(auxiliary-loss-free)的负载均衡计谋,最大程度地减少了负载均衡对模子性能的负面影响。
  • 我们研究了多 token 猜测(MTP)目的,并证实其有助于提升模子性能。别的,该目的还能用于推测解码(speculative decoding),以加速推理过程。
预练习:迈向极致的练习效率


  • 我们设计了 FP8 混合精度练习框架,并初次在超大规模模子上验证了 FP8 练习的可行性和有用性。
  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 练习中的通信瓶颈,实现了近乎完整的盘算-通信重叠,大幅提升练习效率并低落练习本钱,使得我们可以或许在不增长额外开销的环境下进一步扩展模子规模。
  • 仅耗费 266.4 万 H800 GPU 小时,我们在 14.8 万亿 token 上完成了 DeepSeek-V3 的预练习,产出了当前最强的开源基础模子。别的,预练习后的后续练习阶段仅需 10 万 GPU 小时。
后练习:从 DeepSeek-R1 举行知识蒸馏


  • 我们提出了一种创新方法,将长链式思维(Long Chain-of-Thought, CoT)模子(特殊是 DeepSeek-R1 系列的一款模子)的推理能力蒸馏到尺度 LLM(尤其是 DeepSeek-V3)中。
  • 在此过程中,我们奇妙地将 R1 的验证(verification)和反思(reflection)模式融入 DeepSeek-V3,显著提升其推理能力。同时,我们也精准控制了 DeepSeek-V3 的输出风格和天生长度。
核心评估效果总结


  • 知识能力(1)在 MMLU、MMLU-Pro 和 GPQA 等教育类基准测试上,DeepSeek-V3 超越全部其他开源模子,分别获得 88.5(MMLU)、75.9(MMLU-Pro)和 59.1(GPQA) 的结果。其表现可媲美领先的闭源模子(如 GPT-4o 和 Claude-Sonnet-3.5),缩小了开源模子与闭源模子在该范畴的差距。(2)在究竟性知识(factuality)基准测试中,DeepSeek-V3 在 SimpleQA 和 Chinese SimpleQA 上表现良好,在开源模子中排名第一。尽管在英文究竟知识(SimpleQA)上仍略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文究竟知识(Chinese SimpleQA)上超越了这些模子,展现了其在中文究竟性知识上的优势。
  • 代码、数学与推理能力(1)在全部非长链 CoT(non-long-CoT)的开源和闭源模子中,DeepSeek-V3 在数学相关基准测试上到达了当前最佳水平。值得留意的是,在 MATH-500 如许的特定基准上,它以致超越了 o1-preview,展现出强大的数学推理能力。(2)在编程相关任务中,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最佳,巩固了其在该范畴的领先地位。在工程相关任务上,虽然 DeepSeek-V3 略逊于 Claude-Sonnet-3.5,但仍远超全部其他模子,在各种技术基准上展现出强劲的竞争力。 
        在本文的其余部分,我们将详细介绍 DeepSeek-V3 的架构(第 2 节)。接着,我们介绍盘算集群、练习框架、FP8 练习支持、推理摆设计谋,以及对未来硬件设计的发起。随后,我们描述预练习过程,包括练习数据构建、超参数设置、长上下文扩展技术、相关评测及讨论(第 4 节)。接下来,我们讨论后练习阶段,包括监督微调(SFT)、强化学习(RL)、对应评测及讨论(第 5 节)。最后,我们总结本文内容,讨论 DeepSeek-V3 现存的局限性,并提出未来研究的潜在方向(第 6 节)。
2. 架构

        我们首先介绍 DeepSeek-V3 的根本架构,该架构采用多头潜在留意力 MLA 以进步推理效率,并利用 DeepSeekMoE 以优化练习本钱。随后,我们提出多token猜测 MTP 练习目的,该目的在多个评测基准上表现出对团体性能的提升。对于其他未明确提及的细节,DeepSeek-V3仍遵照DeepSeek-V2的设置。
2.1. 根本架构

        DeepSeek-V3的根本架构仍然基于Transformer框架。为了进步推理效率和优化练习本钱,DeepSeek-V3采用MLA和DeepSeekMoE,这两种架构在DeepSeek-V2中已被充实行证。与DeepSeek-V2相比,DeepSeek-V3额外引入了一种无辅助丧失负载均衡计谋,用于缓解在确保负载均衡过程中对模子性能造成的影响。

图2 | DeepSeek-V3根本架构示意图。继承DeepSeek-V2的设计,我们采用MLA和DeepSeekMoE以实现高效推理和经济练习

        图2展示了DeepSeek-V3的根本架构,我们将在本节扼要回顾MLA和DeepSeekMoE的细节。
2.1.1. 多头潜在留意力

        在留意力机制中,DeepSeek-V3采用 MLA 架构。设

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

河曲智叟

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表