论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
人工智能
›
人工智能
›
【多模态读论文系列】LLaMA-Adapter V2论文笔记 ...
【多模态读论文系列】LLaMA-Adapter V2论文笔记
立山
论坛元老
|
2024-12-27 14:21:06
|
显示全部楼层
|
阅读模式
楼主
主题
1865
|
帖子
1865
|
积分
5595
分享第二篇论文阅读笔记,欢迎指正,LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
论文:https://arxiv.org/abs/2304.15010
代码:https://github.com/ZrrSkywalker/LLaMA-Adapter
介绍
本文提出了 LLaMA-Adapter V2,一种参数高效的
视觉指令
模子。
重要通过以下方法来增强LLaMA-Adapter
解锁更多可学习参数
:解锁更多的可学习参数(例如,norm, bias 和 scale),将
指令跟随本领分布到整个LLaMA模子中
,而不仅仅是Adapter部门。
早期融合计谋
:将视觉token只输入到LLM的早期层,尽早融入视觉知识。
联合训练方法
:引入了一种
图像-文本对
和指令跟随数据的联合训练方法,通过优化不同组的可学习参数来减轻这两个任务(图像-文本对齐和指令跟随)之间的干扰。
在推理时结合其他模子,例如图像字幕生成/OCR系统等;
LLaMA-Adapter V2与LLaMA-Adapter相比,仅增加了1400万个参数就能实行多模态指令。
虽然一开始的LLaMA-Adapter可以通过冻结指令跟随模子,然后训练投影层来实现图像-文本对齐从而达到不须要多模态数据也能得到多模态模子,但是视觉特征往往主导模子的回应,从而
低沉了模子指令跟随的本领
。
因此在LLaMA-Adapter V2 中,作者仅将动态视觉提示分发到前 K 层,而不会太过影响末了几层模子的自顺应输出,所以使得
图像文本对齐不再粉碎模子的指令跟随本领
。
最终全部可训练参数仅占整个模子的约 0.04%,因此 LLaMA-Adapter V2 仍旧是一种参数高效的方法。
回顾LLaMA-Adapter
零
初始化注意力
。LLaMA-Adapter冻结了整个LLaMA模子,引入拥有1.2M参数的额外
轻量级适配器
模块。适配器层用于 LLaMA 的较高的 Transformer 层,并将一组可学习的软提示毗连起来作为词标记的前缀(软提示向量在训练过程中逐步调整,以使模子可以或许实现指令跟随)。为了将新顺应的知识融入到冻结的 LLaMA 中,LLaMAAdapter 提出了一种零初始化注意机制,在训练过程中,门控幅度逐渐增加,从而逐渐将指令跟踪本领注入冷冻的 LLaMA 中。
简单的多模态变体
。除了使用纯语言指令进行微调之外,LLaMA-Adapter 还可以归并图像和视频输入以进行多模态推理。例如,在处理图像时,LLaMA-Adapter 采用预先训练的视觉编码器(例如 CLIP )来提取视觉特征。然后,这些特征被聚合成全局特征,并通过
可学习的投影层
,以使视觉语义与语言嵌入空间保持一致。之后,全局视觉特征会按元素添加到 Transformer 较高层的每个顺应提示中。这使得 LLaMA-Adapter 可以或许根据文本和视觉输入生成相应。
开放式多模式推理
。虽然 LLaMA-Adapter 可以或许处理相对简单的任务,例如 ScienceQA,但仍不清晰它是否可以生成开放式相应,例如通用视觉问答所需的相应。为了研究这一点,作者首先从 LLaMA-Adapter 开始,用语言指令数据进行预训练,以使用其现有的指令跟随功能。然后通过在 COCO Caption 数据集上微调其适配器模块和视觉投影层来进行实行。末了作者发现新学习的视觉提示往往会主导顺应提示,从而超越固有的指令跟随特征。因此提出了LLaMAAdapter V2,一种参数高效的视觉指令模子,以充分开释LLaMA的多模态潜力。
LLaMA-Adapter V2
线性层的偏置调整
LLaMA-Adapter 在冻结的 LLaMA 模子上采用可学习的顺应提示和零初始化注意机制。但参数更新仅限于顺应提示和门控因子,没有修改LLM的内部参数,这限制了其进行深度微调的本领。所以为了自顺应地处理指令跟踪数据的任务,作者解冻了 LLaMA 中的全部归一化层,对于 Transformer 中的每个线性层,添加一个偏差和一个比例因子作为两个可学习参数。
具有不相交参数的联合训练
由于 500K 图文对和 50K 指令数据之间的数据量差异,简单的将它们组合起来进行优化可能会严峻损害 LLaMA-Adapter 的指令跟随本领。
这里作者提出了一种
联合训练计谋
,通过优化
LLaMA-Adapter V2
中不同的参数组来分别处理
图像-文本对齐
和
指令跟随
两个任务。
图像-文本对齐训练
:对于图像-文本配对数据,仅优化与
图像明确
相关的参数,包罗
视觉投影层(visual projection layers)
和
早期零初始化注意力层(early zero-initialized attention with gating)
。
指令跟随训练
:对于语言指令数据,优化与
语言生成
相关的参数,包罗
后期适配器提示(late adaptation prompts)
、
零初始化注意力机制的门控(zero gating)
、
未冻结的归一化层(unfrozen norm)
、以及
新增的偏置和缩放因子
(或者可选的低秩适配(low-rank adaptation))。
视觉知识的早期融合
LLaMA-Adapter V2 将
编码后的视觉标记(visual tokens)
和
适配提示
分别注入到不同的 Transformer 层,而不是将它们直接融合在一起。
对于共享的数据集适配提示仍旧在末了的 L 层插入(例如 L=30)。
对于输入的视觉提示,它们在
第一层 Transformer
中与词标记直接拼接,并使用
零初始化注意力
机制,而不是与适配提示融合。
集成其他模子
LLaMA-Adapter V2 通过引入专家系统(如图像描述、OCR 和搜索引擎)来增强其视觉指令跟随本领。相比于大规模图像-文本训练数据,LLaMA-Adapter V2 在小规模数据集上进行微调,更高效,但是会面对视觉指令跟随本领不足的问题。专家系统为模子提供额外的视觉推理本领。
实行
实行设置
训练数据
。52K 单轮指令数据(来自 GPT4-LLM)、567K 图像描述数据(来自 COCO Caption),以及 80K 对话数据(来自 ShareGPT)。与 我们上一篇读的论文 LLaVA 不同,该模子没有使用视觉指令数据。
实现细节
。在 LLaMA-7B 模子的实现中,静态适配提示被插入到末了 31 层,动态视觉提示则附加到第一层,提示长度为 20。全部归一化层的参数、线性层的偏置和缩放因子在训练过程中都会更新,其他 LLaMA 的参数保持冻结。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
立山
论坛元老
这个人很懒什么都没写!
楼主热帖
IoTOS-v1.5.3 新增 智能诊断&会话记录 ...
【学习笔记】WPF-01:前言
基于SqlSugar的开发框架循序渐进介绍( ...
网络安全-技术与实践 书本习题练习 ...
CentOS7 单机版使用kubeadm安装K8S ...
IO流的使用
WEB安全基础入门—身份验证漏洞 ...
开源直播课丨大数据集成框架ChunJun类 ...
Python中可以用三种方法判断文件是否存 ...
解读数仓常用模糊查询的优化方法 ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
物联网
快速回复
返回顶部
返回列表