刘俊凯 发表于 2025-3-21 00:47:10

DeepSeek 202502 开源周合集

DeepSeek 本周的开源项目体现了其在 AI 技术栈中的深厚积累,从硬件协同优化(FlashMLA)、通讯库(DeepEP)、核心计算(DeepGEMM)到推理模型(DeepSeek-R1),覆盖了模型开发和部署的多个关键环节。这些项目不但展示了技术气力,也通过开源推动了 AI 社区的协作与创新。


https://i-blog.csdnimg.cn/direct/6e3fb1245655413f8ff168e50dc1a49c.png
   开源索引地址:https://github.com/deepseek-ai/open-infra-index
Day 1: FlashMLA



[*]发布日期: 2025年2月24日
[*]GitHub 地址: deepseek-ai/FlashMLA
[*]简介: FlashMLA 是 DeepSeek 开源周的首个项目,针对 NVIDIA Hopper GPU(如 H800)优化的高性能多头潜伏留意力(Multi-head Latent Attention, MLA)解码内核。它通过利用 Hopper GPU 的高内存带宽(高达 3000 GB/s)和强大计算能力(580 TFLOPS),显著提拔了 AI 模型在推理阶段的性能和可扩展性。FlashMLA 的计划特别实用于需要及时处理大量数据的场景,如医疗诊断、金融生意业务和主动驾驶体系。DeepSeek 通过开源这一项目,展示了其在硬件协同优化上的技术气力,并为开发者提供了一个高效的推理加速工具。
[*]特点:

[*]针对 Hopper GPU 的深度优化。
[*]支持高吞吐量推理,提拔模型部署效率。
[*]开源以鼓励社区在此基础上进一步开发。

Day 2: DeepEP



[*]发布日期: 2025年2月25日
[*]GitHub 地址: deepseek-ai/DeepEP
[*]简介: DeepEP 是 DeepSeek 开源周第二天发布的项目,是首个针对 Mixture-of-Experts(MoE,专家混合模型)练习和推理优化的开源专家并行(Expert Parallelism, EP)通讯库。随着 MoE 模型在 AI 中的广泛应用,高效的通讯机制成为提拔练习和推理性能的关键。DeepEP 支持节点内和节点间的 all-to-all 通讯,利用 NVLink 和 RDMA 技术,提供高吞吐量的练习和预添补内核,以及低延迟的推理解码内核。它还原生支持 FP8 精度计算,进一步降低了计算本钱。DeepEP 的开源填补了社区在 MoE 优化通讯工具上的空白,为大规模分布式练习提供了强有力的支持。
[*]特点:

[*]专为 MoE 模型计划的高效通讯库。
[*]支持 FP8 精度,降低硬件需求。
[*]通过通讯-计算重叠技术提拔体系性能。

Day 3: DeepGEMM



[*]发布日期: 2025年2月26日
[*]GitHub 地址: deepseek-ai/DeepGEMM
[*]简介: DeepGEMM 是 DeepSeek 开源周第三天发布的项目,旨在通过约 300 行精简代码实现高效的矩阵乘法(General Matrix Multiply, GEMM),展示如何突破 AI 计算能力的瓶颈。GEMM 是深度学习中的核心操作,广泛用于神经网络的练习和推理。DeepGEMM 的实现不但高效,还极具可读性和可移植性,为开发者提供了一个轻量级的优化模板。这一项目体现了 DeepSeek 在算法和计算优化上的深厚功底,同时通过开源降低了技术门槛,让更多人可以或许参与到高性能计算的实践中。
[*]特点:

[*]仅 300 行代码实现高性能 GEMM。
[*]轻便高效,易于理解和修改。
[*]实用于多种 AI 计算场景,提拔计算效率。

这些内容直接引用并适配了您提供的 Day 4 数据,并参考了 FlashMLA 的格式。
Day 4: 优化并行策略

4.1 DualPipe



[*]发布日期: 2025年2月27日
[*]GitHub 地址: deepseek-ai/DualPipe
[*]简介: DualPipe 是 DeepSeek 开源周第四天发布的核心项目之一,是一种为 V3/R1 练习计划的双向流水线并行算法。它通过创新的双向数据流计划,实现了前向和后向计算与通讯的高效重叠,显著淘汰了流水线中的“气泡”(bubble)并提拔了计算吞吐量。DualPipe 特别实用于超大规模模型练习(参数量从数百亿到万亿级别),通过优化计算-通讯重叠办理了跨节点通讯的瓶颈题目。DeepSeek 通过开源 DualPipe,展示了其在并行策略上的技术突破,为开发者提供了一个高效的练习加速工具。
[*]特点:

[*]针对 V3/R1 架构的深度优化,双向流水线提拔效率。
[*]支持计算与通讯完全重叠,淘汰练习时间。
[*]开源以推动社区在超大规模模型练习中的创新。

4.2 EPLB



[*]发布日期: 2025年2月27日
[*]GitHub 地址: deepseek-ai/eplb
[*]简介: EPLB(Expert Parallel Load Balancer)是 DeepSeek 开源周第四天发布的第二个项目,是为 V3/R1 模型计划的专家并行负载均衡器。它针对 Mixture-of-Experts(MoE)模型练习中常见的“热门专家”题目,通过及时监控和动态任务分配实现了高效的负载均衡。EPLB 在万卡集群(如 10,000 GPU)中将整体利用率提拔至 92% 以上,有效制止了资源空闲。这一技术的开源为 MoE 模型的高效分布式练习提供了关键支持,展示了 DeepSeek 在大规模并行计算优化上的领先能力。
[*]特点:

[*]针对 MoE 模型的专家并行优化,动态负载均衡。
[*]支持超大规模集群,提拔资源利用率。
[*]开源以鼓励社区开发更高效的分布式练习方案。

4.3 Profile-Data



[*]发布日期: 2025年2月27日
[*]GitHub 地址: deepseek-ai/profile-data
[*]简介: Profile-Data 是 DeepSeek 开源周第四天发布的第三个项目,提供了一个分析 V3/R1 练习中计算-通讯重叠的工具和数据集。它基于 DeepSeek 的时空效率模型,针对 3D 并行(数据并行、流水线并行、张量并行)提供具体的性能剖析数据,资助开发者精确识别计算与通讯之间的辩论点。Profile-Data 支持多种并行配置(如 EP64、TP1、4K 序列长度),并为超大规模模型练习提供了调优基准。DeepSeek 通过开源这一工具,助力开发者优化练习策略,提拔集群效率。
[*]特点:

[*]针对 V3/R1 的计算-通讯重叠分析,优化练习性能。
[*]支持开发者定位性能瓶颈,提供调优参考。
[*]开源以促进社区在并行练习分析上的进一步研究。

Day 5: 3FS、用于全部 DeepSeek 数据访问的 Thruster

5.1 3FS(Fire-Flyer File System)



[*]发布日期: 2025年2月28日
[*]GitHub 地址: deepseek-ai/3FS
[*]简介: 3FS(Fire-Flyer File System)是 DeepSeek 开源周第五天发布的核心项目,是一个高性能并行文件体系,充分利用今世 SSD 和 RDMA 网络的全部带宽。它在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量,在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量,并为 KVCache 查找提供凌驾 40 GiB/s 的峰值性能。3FS 采用解耦架构并保证强一致性,专为 AI 工作负载计划,支持练习数据预处理、数据集加载、查抄点生存/加载、嵌入向量搜刮及 V3/R1 推理中的 KVCache 查找等场景。DeepSeek 通过开源 3FS,展示了其在分布式存储上的技术突破,为开发者提供了一个高效的数据访问加速引擎。
[*]特点:

[*]针对今世 SSD 和 RDMA 网络的深度优化。
[*]高吞吐量和低延迟,支持大规模 AI 数据访问。
[*]开源以推动社区在 AI 基础设施上的创新。

5.2 Smallpond



[*]发布日期: 2025年2月28日
[*]GitHub 地址: deepseek-ai/smallpond
[*]简介: Smallpond 是 DeepSeek 开源周第五天发布的配套项目,是基于 3FS 的数据处理框架。它充分利用 3FS 的高性能并行文件体系能力,简化了大规模数据处理任务的计划与实现。Smallpond 在分布式环境下支持高效的数据预处理、分片和排序等操作,例如在 25 节点集群上以 3.66 TiB/min 的吞吐量完成 GraySort 基准测试。它的计划特别适合 AI 练习和推理中的数据管道需求,与 3FS 无缝集成,为开发者提供了一个轻量但强大的工具。DeepSeek 通过开源 Smallpond,进一步扩展了 3FS 的应用生态,资助加速 AGI 数据处理流程。
[*]特点:

[*]针对 3FS 优化的高效数据处理框架。
[*]支持分布式数据管道,提拔预处理效率。
[*]开源以鼓励社区在此基础上开发数据密集型应用。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: DeepSeek 202502 开源周合集