【多模态读论文系列】LLaMA-Adapter V2论文笔记

立山  论坛元老 | 2024-12-27 14:21:06 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1865|帖子 1865|积分 5595

分享第二篇论文阅读笔记,欢迎指正,LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
论文:https://arxiv.org/abs/2304.15010
代码:https://github.com/ZrrSkywalker/LLaMA-Adapter
介绍

本文提出了 LLaMA-Adapter V2,一种参数高效的视觉指令模子。
重要通过以下方法来增强LLaMA-Adapter

  • 解锁更多可学习参数:解锁更多的可学习参数(例如,norm, bias 和 scale),将指令跟随本领分布到整个LLaMA模子中,而不仅仅是Adapter部门。
  • 早期融合计谋:将视觉token只输入到LLM的早期层,尽早融入视觉知识。
  • 联合训练方法:引入了一种图像-文本对和指令跟随数据的联合训练方法,通过优化不同组的可学习参数来减轻这两个任务(图像-文本对齐和指令跟随)之间的干扰。
  • 在推理时结合其他模子,例如图像字幕生成/OCR系统等;
LLaMA-Adapter V2与LLaMA-Adapter相比,仅增加了1400万个参数就能实行多模态指令。
虽然一开始的LLaMA-Adapter可以通过冻结指令跟随模子,然后训练投影层来实现图像-文本对齐从而达到不须要多模态数据也能得到多模态模子,但是视觉特征往往主导模子的回应,从而低沉了模子指令跟随的本领
因此在LLaMA-Adapter V2 中,作者仅将动态视觉提示分发到前 K 层,而不会太过影响末了几层模子的自顺应输出,所以使得图像文本对齐不再粉碎模子的指令跟随本领
最终全部可训练参数仅占整个模子的约 0.04%,因此 LLaMA-Adapter V2 仍旧是一种参数高效的方法。
回顾LLaMA-Adapter



  • 初始化注意力。LLaMA-Adapter冻结了整个LLaMA模子,引入拥有1.2M参数的额外轻量级适配器模块。适配器层用于 LLaMA 的较高的 Transformer 层,并将一组可学习的软提示毗连起来作为词标记的前缀(软提示向量在训练过程中逐步调整,以使模子可以或许实现指令跟随)。为了将新顺应的知识融入到冻结的 LLaMA 中,LLaMAAdapter 提出了一种零初始化注意机制,在训练过程中,门控幅度逐渐增加,从而逐渐将指令跟踪本领注入冷冻的 LLaMA 中。
  • 简单的多模态变体。除了使用纯语言指令进行微调之外,LLaMA-Adapter 还可以归并图像和视频输入以进行多模态推理。例如,在处理图像时,LLaMA-Adapter 采用预先训练的视觉编码器(例如 CLIP )来提取视觉特征。然后,这些特征被聚合成全局特征,并通过可学习的投影层,以使视觉语义与语言嵌入空间保持一致。之后,全局视觉特征会按元素添加到 Transformer 较高层的每个顺应提示中。这使得 LLaMA-Adapter 可以或许根据文本和视觉输入生成相应。
  • 开放式多模式推理。虽然 LLaMA-Adapter 可以或许处理相对简单的任务,例如 ScienceQA,但仍不清晰它是否可以生成开放式相应,例如通用视觉问答所需的相应。为了研究这一点,作者首先从 LLaMA-Adapter 开始,用语言指令数据进行预训练,以使用其现有的指令跟随功能。然后通过在 COCO Caption 数据集上微调其适配器模块和视觉投影层来进行实行。末了作者发现新学习的视觉提示往往会主导顺应提示,从而超越固有的指令跟随特征。因此提出了LLaMAAdapter V2,一种参数高效的视觉指令模子,以充分开释LLaMA的多模态潜力。
LLaMA-Adapter V2

线性层的偏置调整
LLaMA-Adapter 在冻结的 LLaMA 模子上采用可学习的顺应提示和零初始化注意机制。但参数更新仅限于顺应提示和门控因子,没有修改LLM的内部参数,这限制了其进行深度微调的本领。所以为了自顺应地处理指令跟踪数据的任务,作者解冻了 LLaMA 中的全部归一化层,对于 Transformer 中的每个线性层,添加一个偏差和一个比例因子作为两个可学习参数。
具有不相交参数的联合训练
由于 500K 图文对和 50K 指令数据之间的数据量差异,简单的将它们组合起来进行优化可能会严峻损害 LLaMA-Adapter 的指令跟随本领。
这里作者提出了一种 联合训练计谋,通过优化 LLaMA-Adapter V2 中不同的参数组来分别处理 图像-文本对齐指令跟随 两个任务。


  • 图像-文本对齐训练:对于图像-文本配对数据,仅优化与 图像明确 相关的参数,包罗 视觉投影层(visual projection layers)早期零初始化注意力层(early zero-initialized attention with gating)



  • 指令跟随训练:对于语言指令数据,优化与 语言生成 相关的参数,包罗 后期适配器提示(late adaptation prompts)零初始化注意力机制的门控(zero gating)未冻结的归一化层(unfrozen norm)、以及 新增的偏置和缩放因子(或者可选的低秩适配(low-rank adaptation))。

视觉知识的早期融合
LLaMA-Adapter V2 将 编码后的视觉标记(visual tokens)适配提示 分别注入到不同的 Transformer 层,而不是将它们直接融合在一起。


  • 对于共享的数据集适配提示仍旧在末了的 L 层插入(例如 L=30)。
  • 对于输入的视觉提示,它们在 第一层 Transformer 中与词标记直接拼接,并使用 零初始化注意力 机制,而不是与适配提示融合。
集成其他模子
LLaMA-Adapter V2 通过引入专家系统(如图像描述、OCR 和搜索引擎)来增强其视觉指令跟随本领。相比于大规模图像-文本训练数据,LLaMA-Adapter V2 在小规模数据集上进行微调,更高效,但是会面对视觉指令跟随本领不足的问题。专家系统为模子提供额外的视觉推理本领。
实行

实行设置

训练数据。52K 单轮指令数据(来自 GPT4-LLM)、567K 图像描述数据(来自 COCO Caption),以及 80K 对话数据(来自 ShareGPT)。与 我们上一篇读的论文 LLaVA 不同,该模子没有使用视觉指令数据。

实现细节。在 LLaMA-7B 模子的实现中,静态适配提示被插入到末了 31 层,动态视觉提示则附加到第一层,提示长度为 20。全部归一化层的参数、线性层的偏置和缩放因子在训练过程中都会更新,其他 LLaMA 的参数保持冻结。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

立山

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表