23年6月来自上海AI实验室,香港中文大学和UCLA的论文“LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention“。
LLaMA-Adapter是一种轻量级的自顺应方法,可以有用地将 LLaMA 微调为指令跟从模子。 用 52K 自指令(self instruct)的演示,LLaMA-Adapter 在冻结的 LLaMA 7B 模子上仅仅引入了 1.2M 可学习参数,而且在 8 个 A100 GPU 上举行微调的本钱还不到一小时。 详细来说,采取一组可学习顺应的提示,并将它们添加到Transformer更高层的单词token中。 然后,提出一种零门控(zero gating)的零初始注意机制,将新的指令线索自顺应地注入LLaMA,同时有用地保存其预练习的知识。 通过高效的练习,LLaMA-Adapter 可以天生高质量的相应,可与具有全微调7B 参数的 Alpaca 相媲美。 除了语言下令之外,该方法还可以简朴地扩展用于学习图像条件 LLaMA 模子的多模态指令,该模子在 ScienceQA 和 COCO Caption 基准上实现了杰出的推理性能。 别的,还评估了零初始注意机制,让它在传统视觉和语言使命上微调其他预练习模子(ViT、RoBERTa),展示了杰出的泛化本事。
如图表现LLaMA -adapter的特点。 轻量级自顺应方法在一小时内仅用 120 万个可学习参数有用地微调 LLaMA 7B 模子。 颠末练习,LLaMA-Adapter 表现出杰出的指令跟从和多模态推理本事。
下图给出一些细节。假如随机初始化自顺应提示,大概在练习开始时会对单词token造成干扰,从而陵犯微调的稳固性和有用性。 思量到这一点,为了渐渐学习指令知识,采取零初始注意机制和门控机制实现早期的稳固练习。该方法将末了 L个Transformer层的平常注意机制修改为零初始注意,即插入具有可学习提示的轻量级适配器。
除了文本指令之外,LLaMA-Adapter 还可以或许根据其他模态的输入回复题目,丰富的跨模态信息加强了语言模子。 如图所示:以ScienceQA基准[41]为例,类似于COCO Caption数据集[8];给定视觉和文本上下文以及相应的题目和选项,模子必要举行多模态明白才华给出正确答案;在 ScienceQA 基准 [41] 上,LLaMA-Adapter 被扩展为用于图像条件问答的多模态变型;给定图像作为视觉上下文,通过多尺度聚合获取全局图像token,并将其按元素添加到顺应提示中以跟从视觉指令。
零初始注意机制的顺应提示方法,不但限于指令模子范畴,还可以进一步用于微调传统视觉和语言使命中的大模子,发挥杰出的泛化本事。
视觉模子。 选择预练习的 ViT [16] 作为卑鄙图像分类使命的根本视觉模子。 与 LLaMA 类似,将自顺应提示作为前缀插入到 ViT 中最上面的 L 个Transformer层中,并将全部插入层的注意利用修改为零初始注意。 通过越来越多地注入卑鄙视觉语义,只在冻结ViT 之上引入一些参数,在 VTAB-1k [67] 基准上得到与全微调相称的分类精度,这表明白注意算子在视觉范畴的功效。
语言模子。 用在大规模未标志文本语料库上预练习的 RoBERTa [40],并在 SQuAD [54] 基准上评估提取式问答的零初始化注意利用。 在 P-tuning v2 [38] 之上实现了零初始注意,这是一种有用顺应地大语言模子的提示调解方法。 同样,仅启用 P-tuning v2 中的提示token和零门控因子,使其在微调期间可学习。 结果证明在传统语言使命上的上风。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |