LLaMA-Adapter：零初始注意机制的语言模子高效微调

登录 · 发表于 2026-2-23 17:32:12

23年6月来自上海AI实验室，香港中文大学和UCLA的论文“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention“。
LLaMA-Adapter是一种轻量级的自顺应方法，可以有用地将 LLaMA 微调为指令跟从模子。用 52K 自指令（self instruct）的演示，LLaMA-Adapter 在冻结的 LLaMA 7B 模子上仅仅引入了 1.2M 可学习参数，而且在 8 个 A100 GPU 上举行微调的本钱还不到一小时。详细来说，采取一组可学习顺应的提示，并将它们添加到Transformer更高层的单词token中。然后，提出一种零门控（zero gating）的零初始注意机制，将新的指令线索自顺应地注入LLaMA，同时有用地保存其预练习的知识。通过高效的练习，LLaMA-Adapter 可以天生高质量的相应，可与具有全微调7B 参数的 Alpaca 相媲美。除了语言下令之外，该方法还可以简朴地扩展用于学习图像条件 LLaMA 模子的多模态指令，该模子在 ScienceQA 和 COCO Caption 基准上实现了杰出的推理性能。别的，还评估了零初始注意机制，让它在传统视觉和语言使命上微调其他预练习模子（ViT、RoBERTa），展示了杰出的泛化本事。
如图表现LLaMA -adapter的特点。轻量级自顺应方法在一小时内仅用 120 万个可学习参数有用地微调 LLaMA 7B 模子。颠末练习，LLaMA-Adapter 表现出杰出的指令跟从和多模态推理本事。

下图给出一些细节。假如随机初始化自顺应提示，大概在练习开始时会对单词token造成干扰，从而陵犯微调的稳固性和有用性。思量到这一点，为了渐渐学习指令知识，采取零初始注意机制和门控机制实现早期的稳固练习。该方法将末了 L个Transformer层的平常注意机制修改为零初始注意，即插入具有可学习提示的轻量级适配器。

除了文本指令之外，LLaMA-Adapter 还可以或许根据其他模态的输入回复题目，丰富的跨模态信息加强了语言模子。如图所示：以ScienceQA基准[41]为例，类似于COCO Caption数据集[8]；给定视觉和文本上下文以及相应的题目和选项，模子必要举行多模态明白才华给出正确答案；在 ScienceQA 基准 [41] 上，LLaMA-Adapter 被扩展为用于图像条件问答的多模态变型；给定图像作为视觉上下文，通过多尺度聚合获取全局图像token，并将其按元素添加到顺应提示中以跟从视觉指令。

零初始注意机制的顺应提示方法，不但限于指令模子范畴，还可以进一步用于微调传统视觉和语言使命中的大模子，发挥杰出的泛化本事。
视觉模子。选择预练习的 ViT [16] 作为卑鄙图像分类使命的根本视觉模子。与 LLaMA 类似，将自顺应提示作为前缀插入到 ViT 中最上面的 L 个Transformer层中，并将全部插入层的注意利用修改为零初始注意。通过越来越多地注入卑鄙视觉语义，只在冻结ViT 之上引入一些参数，在 VTAB-1k [67] 基准上得到与全微调相称的分类精度，这表明白注意算子在视觉范畴的功效。
语言模子。用在大规模未标志文本语料库上预练习的 RoBERTa [40]，并在 SQuAD [54] 基准上评估提取式问答的零初始化注意利用。在 P-tuning v2 [38] 之上实现了零初始注意，这是一种有用顺应地大语言模子的提示调解方法。同样，仅启用 P-tuning v2 中的提示token和零门控因子，使其在微调期间可学习。结果证明在传统语言使命上的上风。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

LLaMA-Adapter：零初始注意机制的语言模子高效微调

本帖子中包含更多资源

浏览过的版块

宝塔山