传统 Transformer 模型中的多头留意力(MHA)机制在生成过程中,因巨大的键值(KV)缓存需求,严峻制约了推理服从。为攻克这一难题,DeepSeek-V2 引入了 MLA 机制。
MLA 的焦点在于低秩键值联合压缩技能。在推理阶段,通过特定的投影矩阵(如 W D K V W^{DKV} WDKV、 W U K W^{UK} WUK、 W U V W^{UV} WUV)将键值压缩为低维埋伏向量 c t K V c_{t}^{KV} ctKV,大幅削减了 KV 缓存。与 MHA 相比,MLA 仅需缓存 c t K V c_{t}^{KV} ctKV 及携带旋转位置嵌入(RoPE)的 k t R k_{t}^{R} ktR,缓存元素数量从 2 n h d h l 2n_{h}d_{h}l 2nhdhl 锐减至 ( d c + d h R ) l (d_{c}+d_{h}^{R})l (dc+dhR)l(在 DeepSeek-V2 中, d c d_{c} dc 设为 4 d h 4d_{h} 4dh, d h R d_{h}^{R} dhR 设为 d h 2 \frac{d_{h}}{2} 2dh,其 KV 缓存仅相当于 2.25 组 GQA,但性能更优)。比方,在实际摆设中,这使得 DeepSeek-V2 能够处理更大的批处理规模,显著提拔了推理服从。
此外,为办理 RoPE 与低秩 KV 压缩的兼容性问题,MLA 采取了去耦 RoPE 计谋。通过引入额外的多头查询 q t , i R q_{t,i}^{R} qt,iR 和共享键 k t R k_{t}^{R} ktR 来承载 RoPE,确保了在不影响性能的条件下,有用避免了因 RoPE 应用导致的推理服从降落。
其将专家细粒度分割,并隔离部分共享专家,有用提拔了专家专业化程度和知识获取的精准性。在计算 FFN 输出时,依据令牌与专家的亲和力 s i , t s_{i,t} si,t,经 top-K 选择和归一化确定门控值 g i , t g_{i,t} gi,t,从而精准激活路由专家,实现高效计算资源分配。与传统 MoE 架构(如 GShard)相比,DeepSeekMoE 在相同的激活和总专家参数条件下,性能优势显著。
为控制专家并行训练中的通讯开销和负载均衡,DeepSeek-V2 设计了一系列有用机制。装备限定路由机制确保每个令牌的目标专家最多分布在 M M M 个装备上(实践中 M ≥ 3 M≥3 M≥3 时性能良好),有用低落了 MoE 干系通讯本钱。同时,通过设计专家级、装备级和通讯平衡损失,从多个层面保障了负载平衡,防止路由瓦解和计算服从低落。此外,还引入了装备级令牌丢弃计谋,在训练过程中动态丢弃低亲和力令牌,进一步优化计算资源利用,且在推理时可灵活调解,确保训练与推理的一致性。
三、预训练(Pre-Training):夯实模型基础
采取 Group Relative Policy Optimization(GRPO)算法举行强化学习,该算法摒弃传统等大的评论家模型,基于组分数估计基线,有用低落训练本钱。具体而言,对于每个问题 q q q,GRPO 从旧计谋 π θ o l d \pi_{\theta_{old}} πθold中采样一组输出 { o 1 , o 2 , ⋯ , o G } \{o_{1}, o_{2}, \cdots, o_{G}\} {o1,o2,⋯,oG},然后通过最大化以下目标来优化计谋模型 π θ \pi_{\theta} πθ:
J G R P O ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ o l d ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) A i , clip ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) , 1 − ε , 1 + ε ) A i ) − β D K L ( π θ ∥ π r e f ) ) \begin{aligned} \mathcal{J}_{GRPO}(\theta) &=\mathbb{E}\left[q \sim P(Q),\left\{o_{i}\right\}_{i = 1}^{G} \sim \pi_{\theta_{old}}(O|q)\right] \\ &\frac{1}{G}\sum_{i = 1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i}, \text{clip}\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}, 1-\varepsilon, 1+\varepsilon\right)A_{i}\right)-\beta\mathbb{D}_{KL}(\pi_{\theta}\|\pi_{ref})\right) \end{aligned} JGRPO(θ)=E[q∼P(Q),{oi}i=1G∼πθold(O∣q)]G1i=1∑G(min(πθold(oi∣q)πθ(oi∣q)Ai,clip(πθold(oi∣q)πθ(oi∣q),1−ε,1+ε)Ai)−βDKL(πθ∥πref))
D K L ( π θ ∥ π r e f ) = π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − log π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − 1 \mathbb{D}_{KL}(\pi_{\theta}\|\pi_{ref})=\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-\log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-1 DKL(πθ∥πref)=πθ(oi∣q)πref(oi∣q)−logπθ(oi∣q)πref(oi∣q)−1
此中 ε \varepsilon ε和 β \beta β是超参数; A i A_{i} Ai是优势,通过与每组内输出相对应的一组奖励 { r 1 , r 2 , ⋯ , r G } \{r_{1}, r_{2}, \cdots, r_{G}\} {r1,r2,⋯,rG}计算得出:
A i = r i − mean ( { r 1 , r 2 , ⋯ , r G } ) std ( { r 1 , r 2 , ⋯ , r G } ) A_{i}=\frac{r_{i}-\text{mean}(\{r_{1}, r_{2}, \cdots, r_{G}\})}{\text{std}(\{r_{1}, r_{2}, \cdots, r_{G}\})} Ai=std({r1,r2,⋯,rG})ri−mean({r1,r2,⋯,rG})
训练过程采取两阶段计谋,先辈行推理对齐(针对代码和数学推理任务训练奖励模型并优化计谋模型),再举行人类偏好对齐(采取多奖励框架融合不同奖励模型反馈)。为获取可靠奖励模型,精心网络偏好数据并严格过滤和调解比例,同时通过多种工程优化(如设计混合引擎、利用 vLLM 加速推理、优化模型卸载和加载计谋)提拔训练服从,使模型在数学和代码任务性能上进一步提拔,在开放端对话生成中表现更优,在不同语言和范畴的基准测试中显现出较强竞争力。
五、结论、局限与预测