魏晓东 发表于 2024-10-21 07:43:54

论文翻译 | LLaMA-Adapter :具有零初始化留意的语言模子的有效微调

https://i-blog.csdnimg.cn/direct/c0f16b72e60e46fca1cc179ad6724082.png
择要 

        我们提出了一种轻量级的自适应方法,可以有效地将LLaMA微调为指令遵照模子。lama - adapter采用52K自引导演示,在冻结的LLaMA 7B模子上只引入1.2M可学习参数,在8个A100 gpu上举行微调耗费不到一个小时。详细来说,我们采用了一组可学习的自适应提示符,并将它们添加到更高的转换器层的单词令牌中。然后,提出了一种带有零门控的零初始化留意机制,该机制自适应地将新的讲授线索注入到LLaMA中,同时有效地保留了预先训练好的知识。通过我们高效的训练,大羊驼-适配器可以产生高质量的响应,与羊驼完全微调7B参数相当。除了语言命令之外,我们的方法可以简单地扩展到用于学习图像条件的LLaMA模子的多模态指令,该模子在ScienceQA和COCO Caption基准测试上取得了卓越的推理性能。别的,我们还评估了零初始化留意机制对其他预训练模子(ViT, RoBERTa)在传统视觉和语言使命上的微调,证明了我们的方法具有优越的泛化能力。代码发布在https://github.com/OpenGVLab/LLaMA-Adapter。 
1 弁言

        大规模语言模子(Large-scale Language Models, LLM)已经引起了学术界和工业界的广泛关注。在庞大的语料库和先进的硬件的驱动下,LLM表现出非凡的理解和生成能力,将语言使命推向更高的水平。
        最近,指令跟随模子取得了重大进展,如ChatGPT和GPT-3.5 (text-davinci-003)。按照自然语言的指示,他们可以以对话的方式产生专业和上下文的反应。然而,讲授模子的进一步普及在很大水平上受到了闭源限定和高昂的开发资本的拦阻。
        为了缓解这一题目,Stanford Alpaca提出将LLM,即LLaMA微调为一种可负担且可复制的指令遵照模子。从175对人类编写的指令输出对开始,Alpaca利用GPT-3.5以自我引导的方式将训练数据扩展到52K。在此监督下,Alpaca微调LLaMA中的整个7B参数,产生与GPT-3.5相似的特别指令模子。尽管Alpaca的有效性,大规模的LLaMA的完全微调仍然是耗时的,盘算量大,多模态不支持和繁琐的转移到差别的卑鄙场景。
        在本文中,我们介绍了一种有效的微调方法lama - adapter,它将LLaMA适应为一个性能精良的指令跟随模子。我们还利用52K指令输出数据用于训练目的,但冻结了整个LLaMA模子,具有更高的资源效率。详细来说,在LLaMA的高层转换器层中,我们将一组可学习的自适应提示符作为前缀附加到输入指令令牌上。这些提示学习自适应地将新的指令(条件)注入冻结的美洲驼。为了避免早期训练阶段自适应提示的噪声,我们将插入层的香草留意机制修改为零初始化留意,并具有可学习的门控因子。在LLaMA中,门控由零向量初始化,起首保持原有知识,然后在训练过程中渐渐吸收引导信号。这有助于在微调过程中稳定的学习和终极模子更好的指令跟随能力。
https://i-blog.csdnimg.cn/direct/0ddbc06a3e4f458d98624bd00e275be3.png 
图1:LLaMA-Adapter的特性。我们的轻量级自适应方法在1小时内对LLaMA 7B模子举行了有效的微调,只需1.2M个可学习参数。经过训练,LLaMA-Adapter表现出优秀的指令遵照和多模态推理能力。 
总的来说,我们的LLaMA-Adapter展示了四个主要特性,如图1所示。 


[*]1.2M参数。我们没有更新完整的7B参数,而是冻结了预训练的LLaMA,只学习顶部有1.2M参数的自适应提示。然而,这表现了与7BLLaMA相当的指令遵照能力。
[*]一小时微调。得益于我们具有零初始化门控的轻量级适应模块,LLaMA-Adapter的训练收敛在8个A100 gpu上耗费不到一个小时,比Alpaca快三倍。
[*]专业插头。对于差别的场景,可以机动地插入各自的适配器,并赋予LLaMA差别的专家知识。因此,在每个上下文中存储一个1.2M适配器就充足了,而不是7B模子的完整副本。
[*]多模态指令。除了文本指令外,我们的方法还可以将图像作为多模态推理的输入。通过将图像令牌添加到适应提示符中,LLaMAAdapter在ScienceQA和COCO Caption基准测试中具有竞争力。
        除了指令跟随模子之外,我们的零初始化留意力可以推广到其他视觉和语言模子中,用于参数有效的微调。对于视觉模子,我们利用我们的方法对预训练好的ViT举行微调,用于卑鄙图像分类,在各种图像分布的VTAB-1k基准上获得了优秀的性能。对于其他语言模子,我们评估了我们在ReBERTa上对抽取式问答的微调效果,在SQuAD v1.1和v2.0基准测试中取得了领先的效果。通过这些实行,我们证明了LLaMA-Adapter在传统视觉和语言使命中的有效性。
2 相干工作 


        指令跟随型语言模子。语言模子学习指令跟随能力的子范畴旨在根据自然语言命令生成响应,这一范畴在语言和多模态范畴得到了广泛研究。这些方法通常通过利用高质量指令-输出数据对对预训练的语言模子(LLMs)举行微调来提升模子性能。这种微调过程使模子能更好地理解用户意图并更准确地遵照指令。其中,FLAN 提出了一种指令调整方法,该方法在未见使命上优于未调整的LLMs。PromptSource 提供了一个基于网页GUI的开发情况,用于创建和管理零样本和基于梯度的少量样本学习的自然语言提示。SUP-NATINST 建立了一个包含1,616个多样化语言使命的大型基准,并在T5模子上举行了多使命训练。InstructGPT 明显提升了指令跟随能力,大概被集成到闭源的GPT-3.5 和GPT-4 中。斯坦福Alpaca 以端到端的方式对LLM的所有7B参数举行微调,即LLaMA ,它是开源且可复制的。然而,这种全模子微调在时间和内存上大概效率低下,限定了其向卑鄙应用的迁移性。相比之下,我们的LLaMA-Adapter旨在仅在冻结的LLaMA之上微调轻量级适配器,而不是更新整个模子的参数。与同时期的Alpaca-LoRA 相比,我们的方法进一步降低了盘算需求,并可推广到多模态推理的视觉指令跟随。
        参数高效微调。预训练和微调范式在多种语言和视觉使命中已被证明非常有效。与全微调相比,参数高效微调(PEFT)方法冻结了预训练模子的大部分参数,但仍能在卑鄙使命上展现出相当的能力。已探索了多种PEFT技能,包罗提示调整、低秩适应(LoRA)和适配器。提示调整在预训练的大型模子中添加了可训练的提示令牌集合,这些令牌仅插入输入嵌入,或者插入所有中间层。LoRA 在每个网络权重中引入了可训练的秩分解矩阵,这在大生成模子上表现了有前景的微调能力。适配器在每个预训练的变压器层中插入轻量级适配模块,并已在浩繁范畴得到扩展。在本文中,我们提出了一种新的PEFT方法,LLaMA-Adapter,专为LLaMA 和指令跟随微调计划。现有的PEFT方法大概通过直接插入随机初始化模块,潜伏地干扰预训练的语言知识。这导致早期训练阶段出现不稳定微调和大丧失值。为此,LLaMA-Adapter采用带有门控因子的零初始化留意力来很好地缓解这一题目,渐渐将指令线索与冻结的LLaMA相结合。别的,我们还验证了我们的方法在微调其他范畴大型模子的有效性。借助零门控的适配提示,我们对ViT 和RoBERTa 的高效微调分别在视觉和语言使命上展现出了有竞争力的卑鄙性能,证明了卓越的泛化能力。
3 LLaMA-Adapter 

         在3.1节中,我们起首介绍怎样将可学习的自适应提示符插入到LLaMA的变压器中。然后,我们在第3.2节中介绍了带有零门控的零初始化留意机制的细节,并在第3.3节中推广了用于多模态推理的LLaMA-Adapter。最后,我们将在第3.4节扩展我们的方法来实现视觉和视觉语言模子的有效微调。
3.1 可学习的适应提示 

        给定52K指令输出数据和预训练的带有n层变压器的LLaMA,我们采用一组可学习的自适应提示符举行指令跟随微调。我们将L层变压器的提示符记为https://latex.csdn.net/eq?%5Cleft%20%5C%7B%20P_%7Bl%7D%20%5Cright%20%5C%7D_%7Bl%3D1%7D%5E%7BL%7D,其中https://latex.csdn.net/eq?P_%7Bl%7D%20%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7BK%20%5Ctimes%20C%7D, https://latex.csdn.net/eq?K表示每层的提示符长度,C表示LLaMA变压器的特性维数。请留意,我们将提示插入到转换器的最顶层L层(L≤N)中。这可以更好地调整具有更高级别语义的语言表示。
        以第l插入层为例(l≤l),我们将m长度的词令牌记为https://latex.csdn.net/eq?T_%7Bl%7D%20%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7BM%5Ctimes%20C%7D,表示输入指令和已经生成的响应。可学习的自适应提示符沿着令牌维度与https://latex.csdn.net/eq?T_%7Bl%7D连接作为前缀,表示为
https://i-blog.csdnimg.cn/direct/b2d3240cb0244722a13f1f7012c1fb5b.png 
        如许,在https://latex.csdn.net/eq?P_%7Bl%7D中学习到的指令知识,可以通过变压器块中的留意层,有效地引导https://latex.csdn.net/eq?T_%7Bl%7D产生后续的上下文响应。 
 3.2 零初始化留意力

        如果随机初始化自适应提示,大概会在训练开始时给单词标志带来干扰,影响微调的稳定性和有效性。思量到这一点,我们将最后一个L转换器层的普通留意机制修改为零初始化留意,如图2所示。
https://i-blog.csdnimg.cn/direct/e6829f8ec39a4812826b790a5d3892d2.png
图2:LLaMA-Adapter的细节。我们将具有可学习提示的轻量级适配器插入到LLaMA的N个变压器层中的L层。为了渐渐学习讲授知识,我们采用零初始化留意和门控机制举行早期稳定训练。
        假设模子正在生成https://latex.csdn.net/eq?%5Cleft%20%5B%20P_%7Bl%7D%20%3BT_%7Bl%7D%5Cright%20%5D顶部的第(M + 1)个单词;在第l个插入层,我们将对应的(M + 1)个单词标志为https://latex.csdn.net/eq?t_%7Bl%7D%20%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7Bl%20%5Ctimes%20C%7D。在留意机制中,起首应用几个线性投影层将输入令牌转换为查询、键和值。
https://i-blog.csdnimg.cn/direct/85bfbb7c38924a9f8ae5c4b66534d1ec.png 
         然后,盘算softmax函数前https://latex.csdn.net/eq?Q_%7Bl%7D和https://latex.csdn.net/eq?K_%7Bl%7D的留意力得分为
 https://i-blog.csdnimg.cn/direct/af4e5339b9a24aa3b353d38851fd0587.png
        它记载了新词https://latex.csdn.net/eq?t_%7Bl%7D与所有K + M + 1标志之间的特性相似性。同时,https://latex.csdn.net/eq?S_%7Bl%7D可以由两个组分重新表述为
 https://i-blog.csdnimg.cn/direct/c95ef55b2fd747df8d15f3056b0cb005.png 
        式中,https://latex.csdn.net/eq?S_%7Bl%7D%5E%7BK%7D%20%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7BK%5Ctimes%20l%7D和https://latex.csdn.net/eq?S_%7Bl%7D%5E%7BM+1%7D%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7B%28M+1%29%5Ctimes%201%7D分别表示K个适应提示和M+1个词令牌的留意得分。前者表示可学习提示对生成tl贡献了多少信息,这大概会在训练早期引起干扰。
        为此,我们采用可学习的门控因子https://latex.csdn.net/eq?g_%7Bl%7D来自适应控制https://latex.csdn.net/eq?S_%7Bl%7D%5E%7BK%7D在留意力中的重要性。https://latex.csdn.net/eq?g_%7Bl%7D初始化为零,可以起首消除欠拟合提示的影响,然后增加其大小,为LLaMA提供更多的指令语义。因此,我们将softmax函数独立应用于式(6)中的两个分量,并将第一项乘以https://latex.csdn.net/eq?g_%7Bl%7D,表示为
https://i-blog.csdnimg.cn/direct/132a0cf7cadf4d3097e591620761d986.png 
        单独的softmax函数确保第二项与适应提示无关。当https://latex.csdn.net/eq?g_%7Bl%7D接近于零时,它可以将最初预训练的LLaMA知识传递给令牌tl,从而生成可信的代。在实践中,我们采用多个https://latex.csdn.net/eq?g_%7Bl%7D对留意内的差别头部举行独立学习,有利于多头机制的学习多样性。最后,我们用线性投影层盘算第l个留意层的输出为
https://i-blog.csdnimg.cn/direct/0cdd836612094548b4566456209ac414.png 
        利用我们提出的零初始化留意力,自适应提示可以渐渐将新获得的指示信号注入变压器,同时结合预先训练的LLaMA知识来提供高质量的响应。 
3.3 多模态推理 

         除了文本指令外,LLaMA-Adapter还能够基于其他模态的输入回答题目,这为语言模子增添了丰富的跨模态信息。如图3所示,我们以ScienceQA基准为例,它雷同于COCO Caption数据集。给定视觉和文本上下文,以及相应的题目和选项,模子需要执行多模态理解以给出精确答案。
        对于作为视觉上下文的输入图像,我们起首利用预训练的视觉编码器,例如CLIP ,来提取其多标准全局特性,记为https://latex.csdn.net/eq?%5Cleft%20%5C%7B%20Im_%7B%7D%20%5Cright%20%5C%7D_%7Bm%3D1%7D%5E%7BM%7D,其中https://latex.csdn.net/eq?I_%7Bm%7D%20%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7B1%5Ctimes%20C_%7Bm%7D%7D,M表示标准数量。然后,我们将M标准的特性沿着通道维度举行拼接,并在其上应用一个可学习的投影网络,公式如下:
https://i-blog.csdnimg.cn/direct/906117dd7c9e45bc907b66614f72f6f2.png 
        其中https://latex.csdn.net/eq?I_%7Bp%7D%5Cepsilon%20%5Cmathbb%7BR%7D%5E%7B1%5Ctimes%20C%7D,被视为与我们的自适应提示具有相同特性维度的整体图像令牌。在此之后,我们重复https://latex.csdn.net/eq?I_%7Bp%7D K次,并明智地将其添加到所有L个插入的变压器层的K长度自适应提示中。对于第1层,我们将获得的多模态提示表示为 
 https://i-blog.csdnimg.cn/direct/28cb6ba087df44438ee1b38382d717c0.png
        其中https://latex.csdn.net/eq?P_%7Bl%7D%5E%7Bv%7D表示结合给定图像上下文的视觉信息的自适应提示符。通过这种方式,LLaMA经过微调,可以在视觉语言输入的条件下生成响应,并可以通过多模态理解处理惩罚更具挑衅性的生成使命。
 3.4 其他大型模子的零初始化留意

        我们的方法,即具有零初始化留意力的自适应提示,不仅局限于指令模子范畴,而且可以进一步用于传统视觉和语言使命中的大型模子微调,发挥出优越的泛化能力。
        视觉模子。我们选择预训练的ViT作为卑鄙图像分类使命的基础视觉模子。与LLaMA雷同,我们将自适应提示符作为前缀插入到ViT中最顶层的L变压器层中,并将所有插入层的留意利用修改为零初始化。通过不绝注入卑鄙视觉语义,我们只在冻结的ViT上引入少量参数,就可以在VTAB-1k基准上获得与完全微调相当的分类精度,这表明我们的留意力算子在视觉范畴的有效性。
        语言模子。我们利用RoBERTa在大规模未标志文本语料库上举行预训练,并在SQuAD基准上评估我们提出的零初始化留意力用于抽取式问答。我们在P-tuning v2的基础上实现了零初始化留意力,P-tuning是一种高效适应大型语言模子的快速调优方法。同样,我们只启用P-tuning v2中的提示符号和我们的零门控因子在微调期间是可学习的。领先的效果证明了我们在传统语言使命中的优势。关于将零初始化留意力机制应用于更大的模子和使命,请参阅增补质料。
 4 实行

        在第4.1节中,我们起首评估LLaMA-Adapter的指令跟随能力。然后,我们在4.2节中展示了我们在ScienceQA基准上的多模态性能,并在4.3节中对ScienceQA的验证集举行了消融研究。最后,我们在4.4节中报告了我们的方法在其他视觉和语言模子上的微调效果。 
4.1 指令后续评价 

        设置。遵照斯坦福Alpaca 的方法,我们利用了52K条指令跟随数据用于训练,这些数据是从175条指令-输出对扩展而来的。我们在8个A100 GPUs上对LLaMA-Adapter举行了5个周期的微调。预热周期、批量大小、学习率和权重衰减分别设置为2、64、0.009和0.02。默认情况下,我们利用了具有7B参数和N = 32个变压器层的预训练LLaMA模子。我们采用了提示长度K = 10,并将适配提示插入到最后L = 30层中。在生成阶段,我们采用top-p采样作为默认的解码方法,温度为0.1,top-p = 0.75。对于定量评估,我们请GPT-4 对指令跟随模子在80个题目上的响应质量举行评估。由于我们观察到GPT-4倾向于给第一个响应更高的分数,我们也交换了两个响应的位置,总共举行了160个评估项。
https://i-blog.csdnimg.cn/direct/7247687e0ab943e9bbf47da13434902d.png
图4:LLaMA和LLaMA-Adapter的指令遵照比力。
https://i-blog.csdnimg.cn/direct/a8061c6dc3d34f0394dbc2a8e7dcc027.png 
图6:LLaMA-Adapter、Alpaca和Alpaca- lora的定量比力,采用GPT-4评估 
         性能。我们在图4中比力了LLaMA-Adapter和Alpaca 生成的响应,并在图6中报告了定量效果。请参考增补质料以获取与Alpaca-LoRA 、GPT-3 和LLaMA-I 的完整比力。对于图4中的差别范例的指令,我们的方法可以输出与完全微调的Alpaca相当公道的响应,包罗题目回答、语言翻译和代码生成。在图6的GPT-4评估中,LLaMA-Adapter相比于Alpaca和Alpaca-LoRA获得了更多的“胜利”。这完全证明了我们带有零初始化留意力机制的适配器有效性。
效率。在表1中,我们比力了差别指令跟随方法的可学习参数、存储空间和训练时间。作为一个轻量级的即插即用模块,LLaMA-Adapter具有优越的训练效率,仅需要1.2M参数、4.9M存储空间和一小时的训练时间。
https://i-blog.csdnimg.cn/direct/2dc7456148174eafb531da74739400b1.png
 表1:差别指令遵照方法的效率比力。训练时间在8个A100 gpu上举行测试。
          这使得我们能够在移动设备上对大规模语言模子,例如LLaMA,举行微调。LLaMA-Adapter的效率优势可以通过多节点训练进一步表现,因为只需要在节点之间传输1.2M参数的梯度,而不像Alpaca需要传输7B参数的梯度。
        这使得我们能够在移动设备上对大规模语言模子,例如LLaMA,举行微调。LLaMA-Adapter的效率优势可以通过多节点训练进一步表现,因为只需要在节点之间传输1.2M参数的梯度,而不像Alpaca需要传输7B参数的梯度。
 4.2 多模态评估

        设置。对于多模态LLaMA-Adapter,我们采用CLIP的视觉编码器提取输入图像的多标准全局特性,并利用简单级联mlp作为可学习的投影网络。我们采用贪心搜索作为解码方式生成,其他超参数保持与遵照指令的LLaMA-Adapter相同。我们利用两个多模态数据集来训练我们的模子并评估其性能:ScienceQA和COCO Caption。
        ScienceQA是一个从各个知识范畴收集的大规模多模态科学问答数据集。每个示例都包含一个可视化上下文、一个文本上下文、一个题目、多个选项和一个答案。我们将给定的题目、文本上下文和选项顺序连接在一个句子中,作为LLaMA-Adapter的输入。COCO标题数据集包含0.6M训练图像数据(120k图像,每张图像5个标题),分布范围很广。我们利用“为此图像生成标题”作为LLaMA-Adapter的文本指令输入。
https://i-blog.csdnimg.cn/direct/ec7c1f0748454bc3844d1bfcda9fcffb.png
表2:ScienceQA测试集的问答准确率(%)。我们报道了GPT-3、ChatGPT和GPT-4用于零样本推理。CoT指的是利用额外的思维链来回答题目。T表示纯文本输入的单模态模子。 
         表现。在表2中,我们在ScienceQA数据集上将LLaMA-Adapter与现有流行的VQA方法和大型语言模子举行了比力。如图所示,我们的单模态变体(' LLaMA-AdapterT ')仅利用1.2M参数即可获得78.31%的准确率。
https://i-blog.csdnimg.cn/direct/0efe655f5fbd4054927ca4d5b90bc0ea.png
表5:Karpathy等人在COCO Caption验证集上的性能(%)。PT表示在附加数据集上的预训练,FT表示在COCO Caption上的微调。 
        通过进一步注入0.6M投影网络的视觉条件,我们的多模态变体(“LLaMA-Adapter”)的回答准确率进步了6.88%。与传统的VQA方法相比,它们需要用域内数据集来训练整个网络,需要大量的资源预算,而LLaMA-Adapter只需要微调几个参数就可以获得更好的性能。尽管GPT系列在没有微调的情况下实现了零样本应答,但它们包含的参数比我们利用轻量级适配器的LLaMA 7B模子多得多。别的,MM-CoT与我们的方法相当,但它高度依赖于一个复杂的两阶段推理。因此,我们的LLaMA-Adapter在实现具有竞争力的问答能力的同时,展示了优越的参数效率。在表5中,我们报告了COCO Caption数据集上图像字幕的效果。BLIP和BLIP-2都在额外的数据集上采用了昂贵的预训练阶段,以获得更好的性能,包罗Visual Genome、Conceptual Captions和LAION。相比之下,我们的LLaMA-Adapter只需要COCO Catption的0.6M数据的训练集就可以获得比ClipCap更好的准确率。
4.3 消融研究 

        插入层。我们起首研究要插入LLaMA-Adapter中的变压器层的数量。如表3所示,增加层数会引入更多的参数,但会导致ScienceQA的验证集的准确性有很大的进步,例如从10到30增加了+17.41%,从20到30增加了+10.49%。这表明,在差别的层次上增加更多的自适应提示,可以为预训练的LLaMA提供更强的使命导向。 
https://i-blog.csdnimg.cn/direct/a1d67ef80fd84151a7136fd4644c95c3.png
表3:LLaMA变压器插入层消融情况。 
https://i-blog.csdnimg.cn/direct/371a254b3daf4ae8a7ab47feead9be1b.png 
表4:零初始化留意的消融。蓝色表示收益。 
        Zero-initialized关注。我们提出的留意力机制对LLaMA-Adapter的早期训练稳定性和终极生成能力至关重要。如表4所示,它有助于在验证集上获得+43.08%的性能增益。相比之下,随机初始化基线的准确率仅为40.77%,险些与“随机选择”相同(见表2的第一行)。这个比力证明了零初始化留意力在我们的方法中的决定性作用。
https://i-blog.csdnimg.cn/direct/66c0d3f917dc46069317e90c483b49c1.png
图7:有(蓝色)和没有(橙色)零初始化留意力的丧失曲线。 
         在图7中,我们绘制了有零初始化和没有零初始化的丧失曲线,其中“零初始化留意力”收敛得更快,并且达到了比“rand-init留意力”更低的丧失界限。
https://i-blog.csdnimg.cn/direct/4b966c7770dc4aec8f430361375abb3a.png
表6:对过拟合的妥当性。比力了LLaMA-Adapter在差别训练阶段的训练丧失、验证丧失和验证精度。 
        对过拟合的妥当性。由于大型语言模子的微调数据通常比预训练数据的规模小得多,研究人员必须仔细调整一组超参数以避免过度拟合。在表6中,我们展示了LLaMA-Adapter对于过度拟合题目的相对结实性。与的结论相似,即使我们的模子对微调数据举行了过拟合,例如验证丧失在0.136(15个epoch)到0.282(60个epoch)之间变革不大,但验证精度仍然在增加,例如从82.08%增加到83.94%。这是因为,lama - adapter保持预先训练的LLaMA 7B模子冻结,并且只学习具有几个参数的轻量级适配器。
4.4其他大型模子的零初始化留意 

        设置。对于图像分类,我们在有监督的ImageNet-21k数据集上对预训练的ViT-B/16举行微调。我们采用VTAB-1k举行评估,它是19个差别视觉使命的集合,并根据图像域分为三组:自然、专门和布局化。对于抽取式问答,我们遵照P-tuning v2 (PT2),在SQuAD v1.1和v2.0基准上对RoBERTalarge模子举行微调。在开发集上报告精确匹配(EM)和F1分数。我们将名称实体识别(NER)和语义角色标志(SRL)使命的评估推迟到增补质料中。
https://i-blog.csdnimg.cn/direct/bf1745265c1b402f911d905e8bcb48b5.png
表7:在VTAB-1k上利用ViTB/16举行视觉模子微调。我们报告了三个使命组的均匀准确率(%)。 
 
        演出。我们分别在表7和表8中给出了微调ViT和RoBERTa的效果。对于具有差别图像分布的三个数据集组,例如自然图像、医学图像和卫星图像,我们的方法比VPT实现了+3.26%、+2.00%和+1.77%的改进。在SQuAD v1.1和v2.0开发集上,零初始化留意力都可以以差别的幅度进步P-tuning v2,这表明具有较强的语言理解能力。与现有的微调方法相比,这表明我们在传统的视觉和语言使命上具有优势。
https://i-blog.csdnimg.cn/direct/0931a0f141924a7298310545185166d5.png
表8:在SQuAD上利用roberttalarge对语言模子举行微调。*表示P-Tuning v2的再现效果。 
5 结论 

        在本文中,我们提出了LLaMA-Adapter,一种训练指令跟随模子的有效自适应方法。我们的方法只需要120万个参数和1个小时的训练,就能有效地对LLaMA举行微调,与7b个参数的LLaMA相比,效率更高。为了获得更好的训练稳定性和终极性能,我们引入了带有门控机制的零初始化留意力,该机制在保留预先训练的知识的同时,自适应地吸收了讲授信号。LLaMA-Adapter可以推广到多模态推理的图像条件,在ScienceQA和COCO Caption基准测试上取得具有竞争力的效果。在传统的视觉和语言使命上,我们的零初始化留意力也获得了精良的微调性能,表现出较强的泛化能力。限定:由于我们的多模态变体提供了一个整合外部语义的通用范例,我们将进一步扩展LLaMA-Adapter,使其成为一个同一的多模态框架,以广泛的指令为条件,如视频、音频和点云。我们预计拟议的工作不会产生负面的社会影响。 
 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 论文翻译 | LLaMA-Adapter :具有零初始化留意的语言模子的有效微调