EP 架构:未来主流方向照旧特定场景最优解?

打印 上一主题 下一主题

主题 984|帖子 984|积分 2952

DeepSeek MoE架构采用跨节点专家并行(EP)架构,在提升推理体系性能方面展现出巨大潜力。这一架构在发展进程中也面临诸多挑战,其未来毕竟是会成为行业的主流方向,照旧仅适用于特定场景,成为特定范畴的最优解,引发了广泛的讨论。
PPIO派欧云作为专注于分布式推理的AI infra公司,致力于探索前沿推理加快技能。PD分离(prefill-decode分离)作为一种新兴的推理范式,是我们近期重要的研究方向之一,其对EP架构的发展产生了深远影响。

一、EP 架构的技能上风与潜力

(一)提升体系吞吐本领

EP 架构通过增大 batch size,充分发掘 GPU 矩阵乘法的并行计算潜力,明显提升体系的吞吐本领。在深度学习模型的推理阶段,较大的 batch size 能够让 GPU 在单位时间内处置惩罚更多数据。
以图像识别模型为例,当 batch size 增大时,GPU 可以同时对更多张图片举行特征提取与分类运算,大大加快了推理速率。这种机制充分利用了 GPU 的并行计算资源,使模型在数据处置惩罚效率上得到质的提升,为大规模数据的快速处置惩罚提供了有力支持。在大规模数据处置惩罚中,采用 EP 架构增大 batch size 后,处置惩罚速率较传统架构提升了数倍,有效缩短了使命执行时间。
(二)降低推理延长

将专家分散到不同 GPU 上的策略,有效减轻了单个 GPU 的访存压力,大幅降低了推理延长。在处置惩罚大规模语言模型推理时,模型参数规模庞大,访存操作往往成为制约性能的关键因素。EP 架构通过将专家分散开来,每个 GPU 只需处置惩罚少量专家的参数,极大减少了访存需求,让 GPU 能够更专注于计算使命。这使得体系在处置惩罚及时性要求较高的使命时,能够快速响应,满足如智能客服及时问答、在线翻译等场景对低延长的严苛要求。
从技能发展趋势来看,随着数据量呈发作式增长以及模型参数规模持续扩张,对推理体系的吞吐和延长性能要求将越来越高。EP 架构这种能够充分利用大规模计算资源、提升计算效率的设计理念,与未来技能发展需求高度契合。随着硬件技能的不断进步,如 GPU 性能的进一步提升、网络带宽和传输效率的持续拓展,EP 架构有望在更广泛的场景中发挥其上风,具备成为主流方向的技能潜力。
为什么EP能提升推理性能?
如下图所示,我们以DeepSeek V3模型为例阐明优化原理,在LLM的推理当中,往往存在算力、访存、存储等瓶颈,我们从瓶颈的角度举行分析:



假设我们在8张H100的机器上运行DeepSeek V3模型,输入的prompt长度是1k,则推理阶段激活的9个专家参数大小约为22G,KV Cache则只有30M左右,实际推理中,专家参数与KV Cache都必要加载到显卡当中。与之相比,MoE在decode阶段的算力诉求远小于1TFLOPS,而H系列的显卡有上千TFLOPS,远远达不到算力瓶颈。
从上面的分析中得知MoE不是一个算力瓶颈问题,可以根据显卡性能和业务指标对瓶颈举行更进一步的分析,比方,TPOT指标一般要求50m,这就意味着只有50ms全部用于将数据从显存搬运到SM,同时因为碎片等原因而导致真正带宽利用率只有50%。按照以上假设,在50ms的范围内,带宽为3350G/S的H800显卡仅能够搬运85G的数据。
假如我们不做任何EP技能,按照显卡85G的数据搬运本领,意味着每张卡的最大batchsize只能有4(batchsize=85G/22G),与之相反,我们简单的将EP设置为8,则batchsize能到达32(batchsize=85G/(22G/8))。从这里就能看出,EP越大,每个显卡必要加载的专家参数量就越小,从而导致batchsize越大,同时意味着更大的推理吞吐,这便是EP提升推理性能的原理。
值得一提的是,DeepSeek在decode阶段采用的EP320,进一步将batchsize做的更大,从而将显卡性能压榨到极致。

二、特定场景下的卓越体现

在一些特定场景中,EP 架构已展现出无可相比的上风,成为最优办理方案。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南飓风

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表