MiniLLM:大型语言模子的知识蒸馏

[复制链接]
发表于 2025-4-30 01:41:46 | 显示全部楼层 |阅读模式
Abstract

知识蒸馏(KD)是一种极具前景的技能,可以或许有效降低大型语言模子(LLMs)的高盘算需求。然而,现有的KD方法主要应用于白盒分类模子,或通过训练小模子来模拟ChatGPT等黑盒模子API。如何将白盒LLMs的知识有效蒸馏到小模子中仍待深入探索——随着开源LLMs的发达发展,这一问题显得愈发紧张。本研究提出了一种将LLMs蒸馏至小型语言模子的创新方法。我们起首将标准KD方法中接纳的前向Kullback-Leibler散度(KLD)目的更换为反向KLD,该指标更适用于生成式语言模子的蒸馏,可防止学生模子高估西席分布的低概率区域;进而推导出针对该目的的有效优化方法。经蒸馏的学生模子命名为MINILLM。在指令跟随使掷中的大量实验表明:相较于基线模子,MINILLM能生成相应精度更高、整体质量更优、暴露偏差更低、校准性更好且长文本生成能力更强的输出。该方法具有显著的可扩展性,可适用于1.2亿至130亿参数规模的差别模子家族。相干代码、数据及模子检查点已开源:https://github.com/microsoft/LMOps/tree/main/minillm。
1 Introduction

随着大型语言模子(LLMs;BMR+20,HZD+21,BHA+21,CND+22,Ope23)的快速发展,知识蒸馏(KD;HVD15)作为降低其高盘算资源需求的常用技能,通过利用大型西席模子监督训练小型学生模子来实现。当前主要接纳两类蒸馏方法:黑盒KD(仅能获取西席模子生成的文本)和白盒KD(可访问西席模子的输出分布或中心隐藏状态)[JBMD21]。近期研究表明,基于LLM应用程序接口生成的提示-相应对举行小模子微调的黑盒KD已取得显著成果[TGZ+23,CLL+23,WWZ+23,PLH+23]。随着开源LLMs的涌现[ZRG+22,TLI+23],白盒KD对学术界和工业界代价愈发凸显——由于学生模子能从西席模子的输出分布和隐藏状态中获取更优质的信号,其性能潜力可得到显著提升。然而现有白盒KD研究主要针对参数目小于10亿的语言明确模子[SDCW19,WWD+20],针对LLMs的白盒KD仍属空缺范畴。
本研究重点探究可获取西席模子输出分布的白盒LLM蒸馏。我们认为标准KD目的函数[KR16,SST+20,CLL+23,TGZ+23]对生成式使命的LLMs并非最优解。给定西席分布p(y|x)和参数化学生分布qθ(y|x),标准KD目的(包罗序列模子的多少变体)本质上是最小化西席与学生分布之间的近似前向Kullback-Leibler散度(KLD),即KL[p||qθ],这会逼迫qθ覆盖p的所有模态。对于输出空间仅含有限类别(p(y|x)和qθ(y|x)模态较少)的文本分类使命,KL[p||qθ]效果精良;但在LLMs常见的开放域文本生成使掷中,由于模子容量限定,复杂输出空间中p(y|x)的模态数目远超qθ(y|x)表达能力。最小化前向KLD会导致qθ对p的空缺区域赋予过高概率[MG19],并在自由生成时产生p分布下极不可能出现的样本[Hus15]。

为办理该问题,我们提出最小化已在盘算机视觉[LPSK23]和强化学习[CPO19]范畴广泛应用的反向KLD(KL[qθ||p])。如表2及第2.1节所述,相较于KL[p||qθ],最小化KL[qθ||p]会使qθ捕捉p的主要模态,并对p的空缺区域赋予低概率[M+05]。在LLM文本生成中,这意味着学生模子避免学习西席分布中过多长尾变异[HBD+20],转而聚焦生成内容的正确性——这对须要真实性与可靠性的实际场景至关紧张[JLF23]。如第2.2节所示,为优化minθ KL[qθ||p],我们通过策略梯度[SMSM99]推导目的函数的梯度。为进一步稳固和加速训练,我们提出:(1)单步分解降低方差,(2)西席肴杂采样缓解嘉奖破解,(3)长度归一化消除长度偏差。最终在第2.3节给出完整KD算法。经蒸馏的学生模子命名为MINILLM,表明该方法适用于压缩大型(生成式)语言模子且效果显著。
我们在涵盖多种NLP使命的指令跟随场景[SWR+22,WBZ+22]中,将方法应用于参数目1.2亿至130亿不等的各类生成式语言模子[RWC+19,ZRG+22,TLI+23]。实验接纳5个数据集,通过Rouge-L[Lin04]、GPT-4反馈和人工评估举行验证。结果表明MINILLM在所有数据集上均稳固优于标准KD基线,且从1.2亿到130亿模子均展现精良扩展性(见图1)。进一步分析表现,MINILLM具有更低的暴露偏差、更优的校准性、更强的长文本生成能力,且多样性丧失可忽略不计。
2 Method


2.1 MINI LLM: Knowledge Distillation with Reverse KLD



2.2 Optimization with Policy Gradient








免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-9 10:11 , Processed in 0.243885 second(s), 34 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表