论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
DeepSeek面试——模型架构和主要创新点
DeepSeek面试——模型架构和主要创新点
篮之新喜
金牌会员
|
2025-3-21 13:43:20
|
显示全部楼层
|
阅读模式
楼主
主题
971
|
帖子
971
|
积分
2923
本文将介绍DeepSeek的模型架构
多头潜在注意力(MLA)
技术,
混合专家(MoE)
架构,
无辅助损失负载均衡
技术
,多Token 预测(MTP)
战略。
一、模型架构
DeepSeek-R1的根本架构沿用了DeepSeek-V3 的架构。其特点是
多头潜在注意力 (MLA)
用于高效推理,
混合专家模型(MoE)
用于经济训练,
多标记预测 (MTP)
进步评估基准的团体性能,
辅助无损失负载均衡战略
来减轻因确保负载平衡而引起的性能下降。此中前两个是DeepSeekV2使用并验证效果,后两个是DeepSeekV3提出。
总的来说,DeepSeek-R1 是一种改进的Transform 架构,此中每个Transform块由一个Attention模块和一个FFN组成。然而,对于Attention和 FFN,DeepSeek设计并接纳了新的架构。针对注意力设计了 MLA,支持高效推理。针对 FFN接纳高性能DeepSeekMoE 架构,能够以经济本钱训练强大模型的架构。DeepSeek 的架构如下图所示:
二、
MLA
多头潜在注意力MLA
(Multi-Head Latent Attention)如上图右下角,
核心原理是利用低秩
连合压缩来消除推理时间键值缓存和计算量
。
其实现步调可以当作三步:
第一步:输入映射到低秩潜在空间
,输入
分别乘以
的低秩权重矩阵得到
,
此时矩阵的秩远远小于
的秩。雷同下图,利用矩阵乘法将输入映射到潜在空间,实现低秩压缩。
同时对输入
和
乘以携带旋转位置编码(RoPE)的解耦键的矩阵;apply RoPE表现应用 RoPE 矩阵的操作;多个框层叠在一起表现计算i次后拼接。需要注意的是,对于 MLA,在生成过程中仅需缓存
和
,这在保持与标准多头注意力(MHA)相称性能的同时,显着淘汰了键值(KV)缓存量。
第二步:潜在空间中的多头注意力计算
在潜在空间上进行Multi head attention计算。
第三步:映射回原始空间
第一步的反向操作,将低秩潜在空间映射回原始空间
MLA的优势
1. 性能保持:MLA通过低秩压缩淘汰了KV缓存和激活内存,但仍旧能够保持与标准多头注意力(MHA)相称的性能。
2. 服从提升:通过在低维潜在空间中执行注意力计算,复杂度由O(n2d) 降至 O(n2k),在推理过程中,MLA只需要缓存压缩后的键和值,显着淘汰了内存占用,有用低落复杂度。
3. 旋转位置嵌入(RoPE):RoPE通过旋转操作将位置信息嵌入到键和查询中,有用处置惩罚了长序列中的位置依靠问题,使得模型能够更好地捕捉长间隔依靠关系。
三、
MOE
混合专家架构MOE
(Mixture-of-Experts)首次出现于1991年的论文Adaptive Mixture of Local Experts中。DeepSeekMoE中包罗 2048 个范畴专家模型,通过门控网络动态分配查询请求。与 传统 FFN 架构相比,DeepSeekMoE 使用更细粒度的专家,并将一些专家隔离为共享专家。
共享专家(share experts)所有输入均参与计算,路由专家(routed experts)使用 sigmoid 函数计算亲和分数,并对所有选中的亲和分数进行归一化以生成门控值。取门控制TopK的专家参与计算。
MoE的核心头脑是“分而治之”,由多个专家组成,每个专家都是一个局部模型,专门处置惩罚输入空间的一个子集。MoE 使用门控网络来决定每个数据应该被哪个模型去训练,从而减轻差异类型样本之间的干扰,理想实现是某类数据由某类专家来判定结果。
MoE的优势:
1. 专家协作:能够处置惩罚差异输入数据中的共性特征,实现跨差异类型输入数据的知识共享,这有助于淘汰模型参数的冗余。而路由专家则专注于处置惩罚具有特定模式或特征的数据,从而提升模型对各种数据的顺应性和处置惩罚服从。
2. 专家分配:引入了更为精细化的专家分配机制,使得门控网络能够更准确地分析输入数据的特征,并将其导向最匹配的专家,从而增强模型处置惩罚复杂数据的能力。
3. 专家激活:每个输入Token激活8个路由专家,这在确保模型处置惩罚效果的同时,有用避免了因过分激活专家而导致的计算资源浪费,从而提升了计算服从并低落了计算本钱。
四、无辅助损失负载均衡技术
无辅助损失负载均衡技术
(Auxiliary-Loss-Free Load Balancing)
。
在MoE大模型训练过程中,输入会根据路由规则分配到差异的专家模型进行处置惩罚,这个过程中大概会出现负载不均衡的情况,即某些专家模型被频繁调用,而另一些专家模型则很少被使用,这会导致训练服从和模型性能下降。
常规办理方案通常依靠于辅助损失以避免负载不平衡,然而,过大的辅助损耗会损害模型性能。为了在负载均衡和模型性能之间实现更好的权衡,DeepSeek提出了一种辅助无损负载均衡战略来确保负载均衡。具体来说,为每个专家引入了可学习的一个偏差项
,并且将其添加到相应专家的分数中。在训练过程中该偏置项会动态调整每个专家的匹配得分,基于得分和对各专家利用率的实时监测,动态调整路由战略,将输入Token分配给负载较低的专家。
即每个步调结束时,假如相应的专家过载,则淘汰偏差项,假如相应的专家欠载,将增加偏差项。通过动态调整,DeepSeek在训练过程中保持平衡的专家负载,并取得了比通过纯辅助损失鼓励负载均衡的模型更好的性能。
序列平衡辅助损失
(Complementary Sequence-Wise Auxiliary Loss)。固然 DeepSeek-V3 主要依靠辅助无损失战略进行负载均衡,但为了防止任何单个序列内的极度不平衡,还接纳了序列平衡损失。对序列中的每个 Token 进行精细化的分析和处置惩罚,根据 Token 在序列中的位置、上下文信息等更合理地分配到各个专家,序列平衡损失每个序列上的专家负载保持平衡。
五、
MTP
多Token 预测MTP
(Multi-Token Prediction)。包罗主模型Main Model(根本的下一个令牌预测)和 D个次序MTP模块MTP Module(扩展预测将来D个Token)。每个MTP模块由以下组件构成:
• 共享嵌入层(Embedding Layer):与主模型共用,淘汰参数冗余;
• 共享输出头(Output Head):与主模型共用输出层;
• 独立Transformer块(TRMₖ):每个模块有专属的Transformer块;
• 线性投影矩阵(Linear Projection):用于结合当前令牌表现与将来令牌嵌入;
• 均方根归一化(RMSNorm):替换传统LayerNorm,提升计算服从。
训练目标:每个MTP模块单独计算交织熵损失
,总损失为每个MTP模块损失的加权平均:
λ值调治:通过实验确定最优权重以平衡主模型与MTP模块的训练信号。最终使用
+
作为最终损失函数。
优势:
训练阶段通过输入单个Token使用MTP的方式增加模型的学习能力,模型可以通过单Token得到多个平均后的损失,使模型增加单位数据的训练信号量,有利于模型稳定和加速收敛。
推理阶段可单独使用Main Model(丢弃MTP模块),保持常规生成能力。
MTP模块仅作用于训练阶段,当然也可以用作推理阶段加速使用,不过要调整代码。
MTP和传统单Token预测区别
DeepSeek MTP
传统单Token预测
预测深度
多层级(D≥1)
单层级(仅下一个令牌)
参数共享
嵌入层、输出头与主模型共享
无共享
训练目标
多损失加权优化
单一交织熵损失
推理机动性
支持推测解码加速
仅自回归生成
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
篮之新喜
金牌会员
这个人很懒什么都没写!
楼主热帖
XtraBackup 搭建从库的一般步骤及 Xtra ...
rustdesk自建服务器总是掉线 未就绪, ...
Docker三剑客之Machine
8行代码实现快速排序,简单易懂图解! ...
[回馈]ASP.NET Core MVC开发实战之商城 ...
通过Go语言创建CA与签发证书 ...
Java毕业设计-音乐管理系统
三天吃透Kafka面试八股文
sqlserver 软件授权
Apache Solr 教程_编程入门自学教程_菜 ...
标签云
运维
CIO
存储
服务器
浏览过的版块
人工智能
linux
备份
SAP
主机安全
快速回复
返回顶部
返回列表