qidao123.com技术社区-IT企服评测·应用市场

标题: LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-ini [打印本页]

作者: 半亩花草 时间: 2024-8-11 08:44
标题: LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-ini
发表时间：14 Jun 2023
论文链接：https://arxiv.org/pdf/2303.16199
作者单元：Shanghai Artificial Intelligence Laboratory
Motivation：最近，指令跟踪模型取得了重大进展，例如 ChatGPT [2] 和 GPT-3.5 (text-davinci-003) [4]。按照天然语言的说明，它们可以以会话方式天生专业和上下文响应。然而，由于闭源限制和高开发成本，指令模型的进一步遍及在很大程度上受到了阻碍。尽管 Alpaca 的有效性，但大规模 LLAMA 的完整微调仍然耗时、计算密集型、多模态不受支持和繁琐，无法转移到不同的下游场景。
办理方法：我们提出了 LLAMA-Adapter，这是一种轻量级的自顺应方法，可以有效地将 LLAMA 微调为指令跟踪模型。使用 52K self-instruct demonstrations，LLaMA-Adapter 在冻结的 LLAMA 7B 模型上仅引入 1.2M 可学习参数，在 8 个 A100 GPU 上进行微调的成本不到一小时。

本文提出 LLaMA-Adapter，一种高效的微调方法，将 LLaMA 调整为指令跟随模型。对于 llama7b 模型来说，可训练参数缩小到 1.2M，只须要 1 小时即可完成 52K 数据微调 (基于 8xA100 训练)，比 Alpaca 快 3 倍
具体来说，在 LLaMA 的更深层的 transformer 层中，将一组可学习的自顺应提示作为前缀附加到输入指令 token 中。这些提示学习将新指令（条件）自顺应地注入 LLaMA.
为了制止在早期训练阶段顺应提示中的噪声，将插入层的 attention 机制修改为零初始 attention，并使用可学习的门控因子。通过零向量初始化，门控可以首先保留 LLaMA 中的原始知识，并在训练过程中渐渐引入指令信号.
如许做的一个利益和 LoRA 类似，即对于不同的场景可以在基础的 llama 模型 (7B) 上插入不同的插件小模型（1.2 M），用于处理不同场景任务，而不用对每个场景任务都准备一个 7B 的大模型.
支持多模态输入：支持方式就是简朴将图片的 tokens 加到 adaption prompts 中，在 ScienceQA 基准测试中表现出色。

实现方式：

Learnable Adaption Prompts:

接，表达式为：

如许Pl内部学习到的指令知识可以有效地引导Tl天生上下文响应（这一步的操纵与 Visual Prompt Tuning 的方式千篇一律）。
Zero-init Attention:
假如顺应提示是随机初始化的，大概会在训练开始时对词 token 带来干扰，不利于调优的稳定性和有效性。考虑到这一点，修改了最后 L 个 transformer 层的传统注意机制为零初始注意. （这个门控机制是在哪个维度上门控？是在加的提示向量上进行门控（原文中K个），用于筛选加上的提示向量。）

Multi-modal Reasoning：

LLaMA-Adapter 不局限于文本指令，能够根据其他模态输入来回答问题，为语言模型增加了丰富的跨模态信息。
对于图片输入，使用 CLIP 提取多标准的全局特征，然后将这些多标准特征 concat 起来，经过一个投影层得到全局的信息表征。

Ip∈R1×C 是和 adapter prompt 维度一样的全局图片特征表示，然后将该特征 repeat 后与 adapter prompt 相加得到多模态特征（也是常规的多模态特征融合的操纵）。

实行：Instruction-following Evaluation, Multi-modal Evaluation, Zero-initialized Attention for other Large Models(除了指令跟随模型外，我们的零初始化注意力可以推广到其他视觉和语言模型，用于参数高效的微调。对于视觉模型，我们使用我们的方法微调预训练的 ViT进行下游图像分类，在各种图像分布上获得 VTAB-1k基准上的精良性能。)
结论：

很直观的做 llm 微调的实现思路，加一些可学习的 prompt 思路和 Visual Prompt Tuning 很像。
与比 LoRA 的缺点看起来是增加了肯定推理计算量，本文中和 LoRA 等方法的对比还不敷详细（实际上与LoRA做的工作并不像，本文是做微调，而LoRA是做重参数化）。

Limitation: 由于我们的多模态变体提出了一种联合外部语义的通用范式，我们将进一步扩展 LLAMA-Adapter 作为一个同一的多模态框架，以广泛的指令（例如视频、音频和点云）为条件。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)