ToB企服应用市场:ToB评测及商务社交产业平台
标题:
LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-ini
[打印本页]
作者:
半亩花草
时间:
2024-8-11 08:44
标题:
LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-ini
发表时间:14 Jun 2023
论文链接:https://arxiv.org/pdf/2303.16199
作者单元:Shanghai Artificial Intelligence Laboratory
Motivation
:
最近,指令跟踪模型取得了重大进展,例如 ChatGPT [2] 和 GPT-3.5 (text-davinci-003) [4]。按照天然语言的说明,它们可以以会话方式天生专业和上下文响应。然而,由于闭源限制和高开发成本,指令模型的进一步遍及在很大程度上受到了阻碍。尽管 Alpaca 的有效性,但
大规模 LLAMA 的完整微调仍然耗时、计算密集型、多模态不受支持和繁琐,无法转移到不同的下游场景
。
办理方法
:我们提出了 LLAMA-Adapter,这是一种轻量级的自顺应方法,可以有效地将 LLAMA 微调为指令跟踪模型。使用 52K self-instruct demonstrations,LLaMA-Adapter 在冻结的 LLAMA 7B 模型上仅引入 1.2M 可学习参数,在 8 个 A100 GPU 上进行微调的成本不到一小时。
本文提出 LLaMA-Adapter,
一种高效的微调方法,将 LLaMA 调整为
指令
跟随模型
。对于 llama7b 模型来说,可训练参数缩小到 1.2M,只须要 1 小时即可完成 52K 数据微调 (基于 8xA100 训练),比 Alpaca 快 3 倍
具体来说,
在 LLaMA 的更深层的 transformer 层中,将一组可学习的自顺应提示作为前缀附加到输入
指令
token 中。这些提示学习将新指令(条件)自顺应地注入 LLaMA.
为了制止在早期训练阶段顺应提示中的噪声,将插入层的 attention 机制修改为零初始 attention,并使用可学习的门控因子
。通过零向量初始化,门控可以首先保留 LLaMA 中的原始知识,并在训练过程中渐渐引入指令信号.
如许做的一个利益和 LoRA 类似,即对于不同的场景可以在基础的 llama 模型 (7B) 上插入不同的插件小模型(1.2 M),用于处理不同场景任务,而不用对每个场景任务都准备一个 7B 的大模型.
支持多模态输入:支持方式就是简朴将图片的 tokens 加到 adaption prompts 中
,在 ScienceQA 基准测试中表现出色。
实现方式
:
Learnable Adaption Prompts:
接,表达式为:
如许Pl内部学习到的指令知识可以有效地引导Tl天生上下文响应(这一步的操纵
与
Visual Prompt Tuning
的方式千篇一律
)。
Zero-init Attention:
假如顺应提示是随机初始化的,大概会在训练开始时对词 token 带来干扰,不利于调优的稳定性和有效性。考虑到这一点,
修改了最后 L 个 transformer 层的传统注意机制为零初始注意.
(这个门控机制是在哪个维度上门控?是在加的提示向量上进行门控(原文中K个),用于筛选加上的提示向量。)
Multi-modal Reasoning:
LLaMA-Adapter 不局限于文本指令,能够根据其他模态输入来回答问题,为语言模型增加了丰富的跨模态信息
。
对于图片输入,
使用 CLIP 提取多标准的全局特征,然后将这些多标准特征 concat 起来,经过一个投影层得到全局的信息表征
。
Ip
∈R1×
C
是和 adapter prompt 维度一样的全局图片特征表示,然后
将该特征 repeat 后与 adapter prompt 相加得到多模态特征(也是常规的多模态特征融合的操纵)
。
实行
:
Instruction-following Evaluation, Multi-modal Evaluation, Zero-initialized Attention for other Large Models(除了指令跟随模型外,我们的零初始化注意力可以推广到其他视觉和语言模型,用于参数高效的微调。对于视觉模型,我们使用我们的方法微调预训练的 ViT进行下游图像分类,在各种图像分布上获得 VTAB-1k基准上的精良性能。)
结论
:
很直观的做 llm 微调的实现思路,加一些可学习的 prompt 思路和 Visual Prompt Tuning 很像。
与比 LoRA 的缺点看起来是增加了肯定推理计算量,本文中和 LoRA 等方法的对比还不敷详细(
实际上与LoRA做的工作并不像,本文是做微调,而LoRA是做重参数化
)。
Limitation:
由于我们的多模态变体提出了一种联合外部语义的通用范式,我们将进一步扩展 LLAMA-Adapter 作为一个同一的多模态框架,以广泛的指令(例如视频、音频和点云)为条件。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4