论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
云原生
›
EP 架构:未来主流方向照旧特定场景最优解? ...
EP 架构:未来主流方向照旧特定场景最优解?
南飓风
金牌会员
|
2025-3-20 03:00:30
|
显示全部楼层
|
阅读模式
楼主
主题
984
|
帖子
984
|
积分
2952
DeepSeek MoE架构采用跨节点专家并行(EP)架构,在提升推理体系性能方面展现出巨大潜力。这一架构在发展进程中也面临诸多挑战,其未来毕竟是会成为行业的主流方向,照旧仅适用于特定场景,成为特定范畴的最优解,引发了广泛的讨论。
PPIO派欧云作为专注于分布式推理的AI infra公司,致力于探索前沿推理加快技能。PD分离(prefill-decode分离)作为一种新兴的推理范式,是我们近期重要的研究方向之一,其对EP架构的发展产生了深远影响。
一、EP 架构的技能上风与潜力
(一)提升体系吞吐本领
EP 架构通过增大 batch size,充分发掘 GPU 矩阵乘法的并行计算潜力,明显提升体系的吞吐本领。在深度学习模型的推理阶段,较大的 batch size 能够让 GPU 在单位时间内处置惩罚更多数据。
以图像识别模型为例,当 batch size 增大时,GPU 可以同时对更多张图片举行特征提取与分类运算,大大加快了推理速率。这种机制充分利用了 GPU 的并行计算资源,使模型在数据处置惩罚效率上得到质的提升,为大规模数据的快速处置惩罚提供了有力支持。在大规模数据处置惩罚中,采用 EP 架构增大 batch size 后,处置惩罚速率较传统架构
提升了数倍
,有效缩短了使命执行时间。
(二)降低推理延长
将专家分散到不同 GPU 上的策略,有效减轻了单个 GPU 的访存压力,大幅降低了推理延长。在处置惩罚大规模语言模型推理时,模型参数规模庞大,访存操作往往成为制约性能的关键因素。EP 架构通过将专家分散开来,每个 GPU 只需处置惩罚少量专家的参数,极大减少了访存需求,让 GPU 能够更专注于计算使命。这使得体系在处置惩罚及时性要求较高的使命时,能够快速响应,满足如智能客服及时问答、在线翻译等场景对低延长的严苛要求。
从技能发展趋势来看,随着数据量呈发作式增长以及模型参数规模持续扩张,对推理体系的吞吐和延长性能要求将越来越高。EP 架构这种能够充分利用大规模计算资源、提升计算效率的设计理念,与未来技能发展需求高度契合。随着硬件技能的不断进步,如 GPU 性能的进一步提升、网络带宽和传输效率的持续拓展,EP 架构有望在更广泛的场景中发挥其上风,具备成为主流方向的技能潜力。
为什么EP能提升推理性能?
如下图所示,我们以DeepSeek V3模型为例阐明优化原理,在LLM的推理当中,往往存在算力、访存、存储等瓶颈,我们从瓶颈的角度举行分析:
假设我们在8张H100的机器上运行DeepSeek V3模型,输入的prompt长度是1k,则推理阶段激活的9个专家参数大小约为22G,KV Cache则只有30M左右,实际推理中,专家参数与KV Cache都必要加载到显卡当中。与之相比,MoE在decode阶段的算力诉求远小于1TFLOPS,而H系列的显卡有上千TFLOPS,远远达不到算力瓶颈。
从上面的分析中得知MoE不是一个算力瓶颈问题,可以根据显卡性能和业务指标对瓶颈举行更进一步的分析,比方,TPOT指标一般要求50m,这就意味着只有50ms全部用于将数据从显存搬运到SM,同时因为碎片等原因而导致真正带宽利用率只有50%。按照以上假设,在50ms的范围内,带宽为3350G/S的H800显卡仅能够搬运85G的数据。
假如我们不做任何EP技能,按照显卡85G的数据搬运本领,意味着每张卡的最大batchsize只能有4(batchsize=85G/22G),与之相反,我们简单的将EP设置为8,则batchsize能到达32(batchsize=85G/(22G/8))。从这里就能看出,EP越大,每个显卡必要加载的专家参数量就越小,从而导致batchsize越大,同时意味着更大的推理吞吐,这便是EP提升推理性能的原理。
值得一提的是,DeepSeek在decode阶段采用的EP320,进一步将batchsize做的更大,从而将显卡性能压榨到极致。
二、特定场景下的卓越体现
在一些特定场景中,EP 架构已展现出无可相比的上风,成为
最优
办理方案。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
南飓风
金牌会员
这个人很懒什么都没写!
楼主热帖
零信任介绍
容斥原理
开源SPL助力JAVA处理公共数据文件(txt ...
使用 Helm 安装 MQTT 服务器-EMQX ...
数理逻辑第1-3章
Ubuntu如何安装Mysql+启用远程连接[完 ...
dotnet 修复在 Linux 上使用 SkiaSharp ...
DOS窗口命令和单表简单查询
Java笔记(13) 简单的Lambda表达式 ...
.gitignore文件配置以及gitee提交报Pus ...
标签云
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表