三尺非寒 发表于 2025-4-5 03:35:30

DeepSeek开源周发布MOE架构千亿级模型摆设秘笈

DeepSeek开源周发布MOE架构千亿级模型摆设秘笈

原创 NLP轻松谈 NLP轻松谈 2025年03月03日 10:02 北京
第一天(2 月 24 日):FlashMLA

FlashMLA是一个针对英伟达 Hopper GPU(如 H800)优化的高效 MLA(Multi-Head Latent Attention)解码内核,专门针对可变长度序列举行了优化;已投入 DeepSeek 的生产环境中,颠末实战验证。
技能亮点:


[*] ✅ 支持 BF16
[*] ✅ 支持分页 KV 缓存(块大小 64)
[*] ⚡ 在 H800 上,提供 3000 GB/s 的内存带宽和 580 TFLOPS 的计算能力
第二天(2 月 25 日):DeepEP

DeepEP是一款专为 Mixture-of-Experts(MoE,专家混合)和专家并行(EP,Expert Parallelism)优化的通信库。它提供高吞吐、低延迟的 “all-to-all” GPU 计算焦点(kernels),也被称为 MoE 任务分配(dispatch)与结果合并(combine)。此外,该库还支持包罗 FP8 在内的低精度计算操作。
为了与 DeepSeek-V3 论文提出的组限制门控(group-limited gating)算法保持同等,DeepEP 提供了一组针对 跨域(NVLink-RDMA)非对称带宽转发 优化的计算焦点,例如从 NVLink 域向 RDMA 域的数据转发。这些计算焦点具备高吞吐率,适用于训练和推理预填充(prefilling)任务,并支持 SM(流式多处置惩罚器)计算资源控制。
对于对延迟敏感的推明白码(inference decoding),DeepEP 提供了一组完全基于 RDMA 的低延迟计算焦点,以尽可能淘汰延迟。此外,该库还引入了一种基于 Hook 的计算与通信重叠方法,该方法不会占用任何 SM 资源。
技能亮点:


[*] ✅ 高效且优化的 “all-to-all” 通信
[*] ✅ 支持基于 NVLink 和 RDMA 的节点内(intranode)与节点间(internode)通信
[*] ✅ 训练和推理预填充采用高吞吐率计算核
[*] ✅ 推明白码采用低延迟计算核
[*] ✅ 原生支持 FP8 计算调理
[*] ✅ 提供灵活的 GPU 资源控制,实现计算与通信并行
第三天(2 月 26 日):DeepGEMM

DeepGEMM是一个专为 FP8 通用矩阵乘法(General Matrix Multiplications, GEMMs) 设计的高效计算库,具备精致化缩放(fine-grained scaling)能力,并符合 DeepSeek-V3 的相干方案。它支持标准 GEMM 计算以及 专家混合(MoE) 组内 GEMM 计算。该库采用 CUDA 编写,安装时无需预编译焦点计算焦点(kernels),而是通过轻量级 即时编译(JIT, Just-In-Time) 模块在运行时动态编译。
目前,DeepGEMM 仅支持 NVIDIA Hopper 张量焦点(tensor cores)。为办理 FP8 张量焦点累积(tensor core accumulation) 计算误差问题,该库采用 CUDA 焦点两级累积(two-level accumulation, promotion) 计谋。固然 DeepGEMM 鉴戒了一些 CUTLASS 和 CuTe 的优化思路,但它并未过度依靠这些库的模板或代数设计,而是寻求极简实现,仅由一个焦点计算函数(kernel)组成,总计约 300 行代码,使其成为学习 Hopper FP8 矩阵乘法和优化技能 的清晰、易读的资源。
只管设计轻量,DeepGEMM 在不同形状的矩阵计算中,其性能可媲美乃至超越专家优化的库。
技能亮点:


[*] ⚡ Hopper GPU 上 FP8 算力峰值可达 1350+ TFLOPS
[*] ✅ 无繁重依靠,代码结构简洁如教程
[*] ✅ 全程采用即时编译(Just-In-Time)
[*] ✅ 焦点逻辑仅约 300 行代码,但在大多数矩阵尺寸上,其性能超越专家优化的计算焦点(kernels)
[*] ✅ 支持密集布局(dense layout)和两种 MoE 专家布局
第四天(2 月 27 日):Optimized Parallelism Strategies

Optimized Parallelism Strategies包罗 DualPipe、EPLB 和 profile-data 三个子项目。
DualPipe 是一种创新的双向管道并行算法,初次在 DeepSeek-V3 技能报告中提出。该算法实现了前向和后向计算与通信阶段的完全重叠,有效淘汰了管道中的空闲时间(气泡)。
EPLB:在使用专家并行 (EP) 时,不同的专家被分配到不同的 GPU 上。由于不同专家的负载可能根据当前工作负载有所不同,因此保持不同 GPU 的负载平衡非常重要。如 DeepSeek-V3 论文中所述,我们采用了冗余专家计谋,通过复制负载较重的专家,然后通过启发式方法将这些复制的专家分配到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 DeepSeek-V3 中使用的组限定专家路由,我们还尝试将同一组的专家安排到同一节点,以淘汰跨节点的数据流量,尽可能做到这一点。
技能亮点:


[*] ✅DualPipe 实现了前向和后向计算的全重叠,淘汰流水线气泡。
[*] ✅EPLB 通过冗余专家计谋和启发式打包算法,优化 GPU 负载。
[*]
页: [1]
查看完整版本: DeepSeek开源周发布MOE架构千亿级模型摆设秘笈