Differential Transformer 架构解析

打印 上一主题 下一主题

主题 1803|帖子 1803|积分 5411

一、摘要

Differential Transformer(Diff Transformer)是由微软与清华大学团结提出,旨在通过差分留意力机制(Differential Attention)解决传统Transformer中存在的留意力噪声(Attention Noise)、长上下文建模困难及幻觉(Hallucination)题目。其核心思想是通过两组留意力权重的差值抵消共模噪声,从而提升模型对关键信息的捕捉能力。实验表明,Diff Transformer在语言建模、长文本理解、幻觉缓解等任务中显著优于传统Transformer,同时具备更高的参数服从和训练稳固性。
论文地点:https://arxiv.org/abs/2410.05258
(ps:**幻觉题目(Hallucination)**指的是模型天生的文本包罗与输入无关(如自行添加原文中没有的信息)、不符合事实(如爱因斯坦发明了电话)或逻辑上自相矛盾的内容(如集会在周一举行后又改成在周三举行),尽管这些内容可能在语法和表面语义上是通顺的。这种现象在天生式任务(如文本天生、问答、摘要)中尤为突出。)
二、配景与动机

1、传统Transformer的局限性

1)留意力噪声:Softmax留意力倾向于过分关注无关上下文(如高频但无意义的短语),导致关键信息被沉没,如图1左模型分配给精确答案的留意力分数很低,同时不成比例地关注不相干的上下文,这意味着信噪比很低,终极沉没了精确答案。
2)长上下文建模失效:在超长文本(如64k token)中,留意力稀释(Attention Dilution)题目显著,模型难以有效利用远端信息。
3)幻觉题目:天生内容中常包罗与输入无关或逻辑矛盾的信息,尤其在问答和摘要任务中体现突出。
      
       图1 传统Transformer的留意力分数远低于DTransformer       2、Diff Transformer的创新点

1)差分留意力:通过两组留意力权重的差值消除共模噪声,保留差异化信号。
2)动态参数调节:引入可学习标量
,平衡噪声克制与信号保留。
3)高效训练计划:通过参数共享与归一化策略(如RMSNorm),确保梯度稳固性。
三、实现方法

1、差分留意力机制(Differential Attention)

1.1 数学原理

输入矩阵
通过投影矩阵天生两组查询(
)、键(
​)和值(
):
 , 
 , 


其中,
为动态学习的标量参数,通过以下方式初始化:

随层数递增(如
),深层网络更夸大噪声控制。
2.2 噪声消除原理

1)共模噪声:两组留意力均包罗相同噪声(如高频冗余模式),通过差值操作抵消。

ps:为什么两组留意力权重的差值可以消除共模噪声?
假设两组留意力权重
 和 
均包罗相同的噪声成分
差异的信号成分


通过计算差值 


若 
,则共模噪声 
被完全抵消,仅保留信号差异 

实际中,
 是动态学习的参数,通过调解
,模型可权衡噪声消除与信号保留


  • :最大限度消除共模噪声,但可能减弱部门有用信号。
  • 当 
    :保留更多原始信号,但噪声克制效果减弱。

2)差异化信号:两组投影捕捉差异子空间信息(如局部依靠与全局结构),差值保留有用信号。
2、多头差分留意力(Multi-Head Differential Attention)

1)独立投影矩阵:每组头利用差异的
,但共享同一层的

2)归一化与梯度对齐:输出经RMSNorm后乘以固定缩放因子
,确保梯度流与传统Transformer一致。
3)参数服从:头数
,总参数量与传统模型对齐。
      
       图2 多头差分留意力结构图,每个头部接纳两个softmax函数留意力之间的差异来消除噪声       (
ps:多头差分留意力的计划有几个关键点:首先,每个头独立计算差分留意力,从而在差异子空间中捕捉差异的噪声和信号;其次,共享λ参数确保层内的一致性,避免差异头之间的噪声克制策略冲突;末了,通过归一化和缩放因子,保持梯度流与传统Transformer一致,确保训练稳固性。
在多头差分留意力中,同一层内的全部头共享标量参数λ,这是为了保持层内留意力模式的一致性。如果不共享λ,大概如果每个头有自己的λ,是否会导致层内留意力模式不一致,进而带来什么题目?
在标准Transformer中,每个多头留意力层包罗多个独立的留意力头,每个头都有自己的查询、键、值的投影矩阵。每个头可以关注输入的差异部门,从而捕捉差异的语义信息。例如,一个头可能关注句子的语法结构,另一个头可能关注实体的共现关系。因此,差异的头自然会有差异的留意力模式,这就是多头机制的上风地点。
在Differential Transformer中,每个头的留意力计算都涉及两组投影(Q₁/Q₂和K₁/K₂),并通过差值运算消除共模噪声。标量参数λ用于调解第二组留意力权重的克制强度。如果每个头都有自己的λ,那么差异头可能会有差异的噪声克制强度,导致同一层内的头在捕捉信息时关注差异的噪声和信号组合。这种不一致性可能会使得模型难以和谐差异头的信息,影响终极输出的稳固性和一致性。
此外,共享λ可能有助于减少模型的参数数量,避免过拟合,同时保持训练过程的稳固性。如果每个头都有独立的λ,会增加模型的复杂度,可能需要在更多数据上进行训练才能有效学习这些参数,而这在实际应用中可能不切实际。
层内留意力模式的一致性是Differential Transformer高效运作的关键。通过共享噪声克制参数λλ、统一梯度对齐策略和参数服从计划,模型能够在差异头之间和谐噪声过滤与信号保留,确保长文本建模的鲁棒性和天生内容的逻辑一致性。这一计划平衡了灵活性与稳固性,为复杂场景下的留意力机制优化提供了重要参考。

四、实验验证

1、语言建模能力

基准测试:在LM Eval Harness中,Diff-3B模型(1T tokens训练)平均准确率达60.6%,显著高于OpenLLaMA-3B(57.5%)和StableLM-3B(56.8%)。
参数服从:6.8B Diff Transformer的验证损失与11B传统Transformer相当,参数量减少37.8%
      
       图3        2、长上下文建模(大海捞针测试)

本文的实验遵照LWM和Gemini 1.5的「多针」评估方案,在差异长度的上下文中,N根针被插入差异的深度。每根「针」都由一个简便的句子组成,为特定城市分配一个独特的魔法数字。答案针被放置在上下文中的5个差异深度:0%、25%、50%、75%和100%,同时随机放置其他分散留意力的针。待测LLM的目标,就是是检索与查询城市相对应的数字。
64k上下文测试:Diff Transformer的负对数似然(NLL)连续低于传统模型,表明其能有效利用长文本信息。
关键信息检索(Needle-in-a-Haystack):在64k上下文中,Diff Transformer检索精度提升76%(25%深度位置),且对输入顺序扰动更鲁棒。
      
       图4 随着上下文长度的增加NLL 连续降落,DTransformer 的 NLL 值低于 Transformer,DTransformer可以跟有效的利用长上下文            
       图5 上下文扩展至64k时,关键信息位于0%、25%、50%深度时差距更明显,特殊是将针放在25%深度时,DTransformer相较于Transformer实现了76%的精度提升       3、幻觉缓解

文章幻觉检测实验关注的是输入上下文包罗精确事实的环境下,模型仍旧未能天生准确输出的环境。将模型输出与地面真实响应一起输入到GPT-4o。然后要求GPT-4o对模型输出是否准确且没有幻觉做出二元判断。先前的研究已经表明,以上的幻觉评估协议在GPT-4o判断与人工标注之间具有较高的一致性。该自动化指标是可靠的,并且与人工评估相符合。对于每个数据集,准确度是基于100个样本的平均值。
文本摘要与问答:Diff Transformer在XSum、CNN/DM等数据集上的幻觉率低沉9-19%
留意力分数分析:Diff Transformer对答案片断的留意力分配提升至0.27-0.40(传统模型仅0.03-0.09),噪声留意力低沉至0.01-0.02(传统模型0.49-0.54)。
      
       图6 准确度越高,出现的幻觉越少       4、激活非常值克制

量化性能:Diff Transformer在6-bit量化下保持高准确率(HellaSwag任务中仅降落2%),而传统模型降落15%
非常值统计:留意力Logit的Top-1值从318.0(传统模型)降至38.8,更得当低比特摆设。

五、讨论与将来方向

1、上风总结

1)噪声克制能力:差分留意力显著减少无关上下文的干扰。
2)长文本建模:支持64k及以上上下文窗口,关键信息检索精度高。
3)训练服从:参数与数据需求减少约35-40%,得当边沿设备摆设。
2、潜伏挑战

1)计算开销:差分留意力引入额外投影,训练吞吐量低沉5-12%
2)动态参数优化
的初始化策略需进一步探索,以适配差异任务需求。
3、将来工作

1)多模态扩展:团结图像/音频模态,探索跨模态噪声克制。
2)低比特优化:利用激活非常值减少特性,开发高效FlashAttention内核。
3)符号知识融合:集成知识图谱,增强天生内容的事实一致性。

六、结论

Diff Transformer通过差分留意力机制,在保持传统Transformer架构简便性的同时,显著提升了模型对关键信息的捕捉能力与天生内容的可靠性。其在长文本建模、幻觉缓解、量化友好性等方面的上风,为大规模语言模型的实用化提供了新的技能路径。将来研究可进一步探索其在多模态、低资源场景下的潜力。
参考文献:https://mp.weixin.qq.com/s/csaFCje8DPWTMNwc89K7fQ

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

tsx81428

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表