云原生DeepSeek开源周发布MOE架构千亿级模型摆设秘笈

三尺非寒 发表于 2025-4-5 03:35:30

DeepSeek开源周发布MOE架构千亿级模型摆设秘笈

DeepSeek开源周发布MOE架构千亿级模型摆设秘笈

原创 NLP轻松谈 NLP轻松谈 2025年03月03日 10:02 北京
第一天（2 月 24 日）：FlashMLA

FlashMLA是一个针对英伟达 Hopper GPU（如 H800）优化的高效 MLA（Multi-Head Latent Attention）解码内核，专门针对可变长度序列举行了优化；已投入 DeepSeek 的生产环境中，颠末实战验证。
技能亮点：

[*] ✅ 支持 BF16
[*] ✅ 支持分页 KV 缓存（块大小 64）
[*] ⚡ 在 H800 上，提供 3000 GB/s 的内存带宽和 580 TFLOPS 的计算能力
第二天（2 月 25 日）：DeepEP

DeepEP是一款专为 Mixture-of-Experts（MoE，专家混合）和专家并行（EP，Expert Parallelism）优化的通信库。它提供高吞吐、低延迟的 “all-to-all” GPU 计算焦点（kernels），也被称为 MoE 任务分配（dispatch）与结果合并（combine）。此外，该库还支持包罗 FP8 在内的低精度计算操作。
为了与 DeepSeek-V3 论文提出的组限制门控（group-limited gating）算法保持同等，DeepEP 提供了一组针对跨域（NVLink-RDMA）非对称带宽转发优化的计算焦点，例如从 NVLink 域向 RDMA 域的数据转发。这些计算焦点具备高吞吐率，适用于训练和推理预填充（prefilling）任务，并支持 SM（流式多处置惩罚器）计算资源控制。
对于对延迟敏感的推明白码（inference decoding），DeepEP 提供了一组完全基于 RDMA 的低延迟计算焦点，以尽可能淘汰延迟。此外，该库还引入了一种基于 Hook 的计算与通信重叠方法，该方法不会占用任何 SM 资源。
技能亮点：

[*] ✅ 高效且优化的 “all-to-all” 通信
[*] ✅ 支持基于 NVLink 和 RDMA 的节点内（intranode）与节点间（internode）通信
[*] ✅ 训练和推理预填充采用高吞吐率计算核
[*] ✅ 推明白码采用低延迟计算核
[*] ✅ 原生支持 FP8 计算调理
[*] ✅ 提供灵活的 GPU 资源控制，实现计算与通信并行
第三天（2 月 26 日）：DeepGEMM

DeepGEMM是一个专为 FP8 通用矩阵乘法（General Matrix Multiplications, GEMMs）设计的高效计算库，具备精致化缩放（fine-grained scaling）能力，并符合 DeepSeek-V3 的相干方案。它支持标准 GEMM 计算以及专家混合（MoE）组内 GEMM 计算。该库采用 CUDA 编写，安装时无需预编译焦点计算焦点（kernels），而是通过轻量级即时编译（JIT, Just-In-Time）模块在运行时动态编译。
目前，DeepGEMM 仅支持 NVIDIA Hopper 张量焦点（tensor cores）。为办理 FP8 张量焦点累积（tensor core accumulation）计算误差问题，该库采用 CUDA 焦点两级累积（two-level accumulation, promotion）计谋。固然 DeepGEMM 鉴戒了一些 CUTLASS 和 CuTe 的优化思路，但它并未过度依靠这些库的模板或代数设计，而是寻求极简实现，仅由一个焦点计算函数（kernel）组成，总计约 300 行代码，使其成为学习 Hopper FP8 矩阵乘法和优化技能的清晰、易读的资源。
只管设计轻量，DeepGEMM 在不同形状的矩阵计算中，其性能可媲美乃至超越专家优化的库。
技能亮点：

[*] ⚡ Hopper GPU 上 FP8 算力峰值可达 1350+ TFLOPS
[*] ✅ 无繁重依靠，代码结构简洁如教程
[*] ✅ 全程采用即时编译（Just-In-Time）
[*] ✅ 焦点逻辑仅约 300 行代码，但在大多数矩阵尺寸上，其性能超越专家优化的计算焦点（kernels）
[*] ✅ 支持密集布局（dense layout）和两种 MoE 专家布局
第四天（2 月 27 日）：Optimized Parallelism Strategies

Optimized Parallelism Strategies包罗 DualPipe、EPLB 和 profile-data 三个子项目。
DualPipe 是一种创新的双向管道并行算法，初次在 DeepSeek-V3 技能报告中提出。该算法实现了前向和后向计算与通信阶段的完全重叠，有效淘汰了管道中的空闲时间（气泡）。
EPLB：在使用专家并行 (EP) 时，不同的专家被分配到不同的 GPU 上。由于不同专家的负载可能根据当前工作负载有所不同，因此保持不同 GPU 的负载平衡非常重要。如 DeepSeek-V3 论文中所述，我们采用了冗余专家计谋，通过复制负载较重的专家，然后通过启发式方法将这些复制的专家分配到 GPU 上，以确保不同 GPU 之间的负载平衡。此外，得益于 DeepSeek-V3 中使用的组限定专家路由，我们还尝试将同一组的专家安排到同一节点，以淘汰跨节点的数据流量，尽可能做到这一点。
技能亮点：

[*] ✅DualPipe 实现了前向和后向计算的全重叠，淘汰流水线气泡。
[*] ✅EPLB 通过冗余专家计谋和启发式打包算法，优化 GPU 负载。
[*]

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

DeepSeek开源周发布MOE架构千亿级模型摆设秘笈