【架构解析】深入浅析DeepSeek-V3的技术架构

打印 上一主题 下一主题

主题 866|帖子 866|积分 2598

运行这个DeepSeek-V3需要的显存资源,我先去找更大的GPU VM去了…

一、DeepSeek-V3 的架构详解

1. 模子总体概述

DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模子,其核心参数配置如下:


  • 模子层数:61 层
  • 隐蔽层维度:7168
  • 前馈网络维度:18432
  • 留意力头数:128
  • 词汇表大小:129280
  • 最大位置嵌入:163840
    该模子通过精细的架构筹划,实现了在计算服从和性能上的均衡。

2. Mixture-of-Experts(MoE)架构

MoE 设置


  • MoE 层频率:1(即每一层都是 MoE 层)
  • 共享专家数:1
  • 路由专家数:256
  • 每个 Token 选择的专家数:8
  • MoE 专家前馈网络维度:2048
    专家数量与分布
  • 总 MoE 层数:58 层(第 4 层至第 61 层)
  • 每层专家总数:257 个(1 个共享专家 + 256 个路由专家)
  • 模子总专家数:14,906 个(257 个专家 × 58 层)
    活跃专家数量
  • 每层活跃专家:9 个(1 个共享专家 + 8 个路由专家)
  • 整个模子的活跃专家:522 个(9 个活跃专家 × 58 层)
    MoE 架构的优势
  • 计算服从高:每个 Token 只需计算少量专家,降低了计算成本。
  • 参数利用率高:拥有巨大参数容量(总参数量 6,710 亿),但现实计算的激活参数仅约 370 亿。
  • 专家专精化:路由机制使得专家专注于特定特性,提高模子性能。
    路由专家与共享专家的结合
  • 路由专家(Routed Experts)
  • 选择性激活:按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token。
  • 专精化处理:每个路由专家擅优点理特定类型的输入或特性,实现专精化。
  • 稀疏计算:仅激活部门专家,提高计算服从。
  • 负载均衡:确保不同专家在不同输入上均衡被激活,避免过载。
  • 共享专家(Shared Experts)
  • 全局参与:始终参与所有输入的处理,贡献通用知识。
  • 促进泛化:捕获数据中的广泛模式,淘汰过拟合风险。
  • 提高稳定性:提供稳定的基础,纵然路由机制不完美时,也能有可靠的输出。
3. 多头埋伏留意力机制(MLA)

留意力机制参数


  • 留意力头数(nh):128
  • 每个留意力头的维度(dh):可理解为隐蔽层维度 d 与留意力头数 nh 的关系,即 d = dh × nh。
  • 嵌入维度(d):7168(模子的隐蔽层维度),表现词向量的维度。
  • 埋伏维度(dc):一个较小的维度,用于压缩 Token 的特性。
    MLA 的实现思路
  • 低秩压缩:将 Token 的特性通过下投影矩阵 W^{DKV} 压缩到较小的埋伏空间:
  • 公式:c_t^{KV} = W^{DKV} × h_t
  • 此中,h_t 为第 t 个 Token 的隐蔽表现,维度为 d,通过 W^{DKV} 压缩到维度为 d_c 的 c_t^{KV}。
  • 还原与扩展:在需要计算留意力时,再通过上投影矩阵将埋伏向量 c_t^{KV} 恢复到所需的 Key、Value 空间。
  • 位置编码处理:对须要的信息(如旋转位置编码 RoPE)的矩阵单独处理,确保模子能保留时序和位置信息。
    MLA 的优势
  • 降低计算与存储需求:通过压缩 Token 特性,淘汰了 Key、Value 的存储空间和计算量。
  • 提高推理服从:淘汰了推理时的缓存占用,加快了模子推理速度。
4. 辅助损失无关的负载均衡策略

传统方法的局限


  • 依赖辅助损失:传统的 MoE 模子利用辅助损失来均衡专家负载,但不合适的辅助损失大概损害模子性能。
    DeepSeek-V3 的办理方案
  • 偏置调整:为每个路由专家引入一个毛病项,动态调整其被选择的概率,以实现负载均衡。
  • 动态调整机制:在训练过程中,一连监控专家的负载情况,过载时降低毛病项,负载不敷时增加毛病项。
  • 消除辅助损失:无需额外的辅助损失函数,淘汰对重要任务的干扰。
    补充性的序列级辅助损失
  • 防止非常不均衡:为避免单个序列中出现负载非常不均衡的情况,利用微小的序列级均衡损失,确保对模子性能影响最小。
    节点受限路由
  • 限定跨节点通信:每个 Token 最多只能发送到 4 个节点处理,降低通信开销。
  • 提高训练服从:淘汰跨节点通信,提高计算资源利用率,降低训练成本。
5. 多 Token 猜测训练目标(MTP)

实现方式


  • 同时猜测多个 Token:在训练过程中,模子不仅猜测下一个 Token,还猜测后续多个位置的 Token。
  • 模块筹划
  • 主模子:猜测下一个 Token。
  • MTP 模块:猜测第 2、3、… 个后续 Token,每个模块共享嵌入层,包罗自己的 Transformer Block 和输出头。
    MTP 的优势
  • 丰富训练信号:增加了训练信号密度,有助于模子学习长期依赖关系。
  • 提高天生质量:对续写任务更有帮助,天生更连贯的文本。
  • 加速收敛:额外的猜测任务大概帮助模子更快地学习有效表现。
6. 训练优化策略

FP8 肴杂精度训练框架


  • 创新性:DeepSeek-V3 采用了 FP8 肴杂精度训练框架,并初次验证了其在超大规模模子上的有效性。
  • 模子参数:模子大小不到 700GB,得益于原生 FP8 的应用,大幅淘汰了显存占用。
  • 成本节约
  • 降低计算和存储需求:相比 FP16,FP8 浮点数的位宽降低一半。
  • 提高训练服从:淘汰显存占用和计算量,加速模子训练。
  • 现实结果:如许激进的 FP8 应用,在行业内尚属初次。
    高效的训练框架
  • 资源利用
  • GPU 数量:仅利用 2048 张 NVIDIA H800 GPU。
  • 训练时间:预训练不到两个月,总 GPU 小时约为 266.4 万小时。
  • 成本控制
  • 总成本:约合 557.6 万美元,远低于同等规模模子的训练成本。
  • 相对优势:比同级别模子的训练成本低了一个数量级。
二、DeepSeek-V3 的性能实测


近期,有科技评测团队对 DeepSeek-V3 举行了现实测试,结果显示该模子在多个方面体现卓越。
1. 模子性能体现

编程能力


  • 测试结果:在复杂编程题目上,DeepSeek-V3 能够天生精确且高效的代码,乃至逾越了 GPT-4 等先辈模子。
  • 示例:在办理下令行缓存和方向键处理的 Python 编程题中,DeepSeek-V3 给出了优雅且完美运行的代码。
  • 分析:这得益于模子在后训练阶段蒸馏了高级模子的数据和自身 R1 版本的推理能力,并将隐式的头脑链(Chain-of-thought)注入到 V3 中,大幅提拔了编程和推理能力。
    数学能力
  • 测试结果:在办理高中及以下难度的数学题目时,体现精彩。在 Omni-MATH 基准测试中,对部门题目给出了精确答案。
  • 分析:固然在极高难度的数学竞赛题上,体现仍有提拔空间,但在通例数学题目上已具备较强竞争力。
    通用能力
  • 多语言支持:词汇表涵盖 129280 个词汇,支持多种语言的应用,特殊是在英语、中文等语言任务上体现突出。
2. 与其他模子的比力

性能对比


  • 开源模子:与 Qwen2.5 72B、LLaMA-3.1 405B 等模子相比,DeepSeek-V3 在英文、多语言、代码和数学等方面均有明显优势。
  • 闭源模子:在某些任务上,DeepSeek-V3 的体现与 GPT-4、Claude 3.5 Sonnet 等闭源模子相当。
3. 感情理解与互动

情商测试


  • 测试结果:在涉及感情理解和互动的题目上,DeepSeek-V3 的体现略显不敷,回答较为理性和安全,但缺乏感情色彩。
  • 分析:这大概与模子训练过程中对于安全性和稳健性的强调有关,将来可在感情理解上举行优化。
三、技术细节与创新亮点

1. 数据集优化



  • 数据加强:提高了数学和编程样本的比例,扩展了多语言覆盖范围,包括英语、中文等多种语言。
  • 数据质量:在高达 14.8 万亿 Tokens 的高质量数据上完成预训练,确保模子具备丰富的知识储备。
  • 蒸馏训练:蒸馏了高级模子的数据,如自身的 R1 版本,结合隐式头脑链,提拔模子的推理和天生能力。
2. 超参数和架构优化



  • MLA 的应用
  • 优势:降低了计算和存储需求,提高了推理服从。
  • 创新:在 DeepSeek-V2 中已有应用,DeepSeek-V3 进一步优化,取得更好的结果。
  • 路由专家与共享专家的结合
  • 创新点:通过动态调整毛病项,实现了辅助损失无关的负载均衡。
  • 优势:避免了传统辅助损失对模子性能的负面影响,提高了训练服从。
  • 节点受限路由
  • 限定跨节点通信:降低训练成本,提高训练服从。
  • 原理:类似于 Hadoop 的就近计算,淘汰了通信带来的计算代价。
3. 训练服从与成本控制

FP8 肴杂精度训练的创新性应用


  • 低显存占用:模子大小不到 700GB,远小于 6710 亿参数模子的理论大小。
  • 节约成本:仅利用 2048 张 GPU,训练成本约为 557.6 万美元,显著低于行业平均水平。
  • 行业首创:DeepSeek-V3 是行业内首个如此激进地采用 FP8 的大型模子。
    四阶段训练策略
  • 预训练阶段
  • 第一阶段:上下文长度为 32K。
  • 第二阶段:扩展上下文长度至 128K,采用 YaRN 技术。
  • 后训练阶段
  • 目的:进一步提拔模子在特定任务和人机交互上的性能。
  • 结果:模子在编程、数学等任务上体现卓越。
  • 监督微调(SFT)和基于人类反馈的强化学习(RLHF)
四、优势总结



  • 高性能体现:在编程、数学等任务上取得领先结果,展现出卓越的智商水平。
  • 低成本高效能:以较低的训练成本,实现了与大型闭源模子相当的性能。
  • 技术创新:在 FP8 肴杂精度训练、MLA、无辅助损失负载均衡等方面取得突破。
  • 支持超长上下文:通过 YaRN 方法,模子能够处理超长文本,拓展了应用场景。
  • 开源共享:作为完全开源的模子,为研究者和开辟者提供了宝贵的资源,推动了 AI 社区的发展。

如何学习AI大模子?

我在一线互联网企业工作十余年里,指导过不少同行子弟。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多狐疑,以是在工作繁忙的情况下照旧坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋侪无法获得精确的资料得到学习提拔,故此将并将重要的AI大模子资料包括AI大模子入门学习头脑导图、精品AI大模子学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模子系统筹划入手,讲解大模子的重要方法;
第二阶段: 在通过大模子提示词工程从Prompts角度入手更好发挥模子的作用;
第三阶段: 大模子平台应用开辟借助阿里云PAI平台构建电商范畴假造试衣系统;
第四阶段: 大模子知识库应用开辟以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模子微调开辟借助以大健康、新零售、新媒体范畴构建适合当前范畴大模子;
第六阶段: 以SD多模态大模子为主,搭建了文生图小步伐案例;
第七阶段: 以大模子平台应用与开辟为主,通过星火大模子,文心大模子等成熟大模子构建大模子行业应用。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

风雨同行

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表