Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels

罪恶克星 · 2024-9-25 19:54:25

文章汇总

本文的作者针对了提示学习的结构设计举行了分析，发现了一些规律：
1)固定的类名令牌为模子的优化提供了强正则化，减少了由噪声样本引起的梯度。
2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大的先验知识。
3)CLIP的噪声零样本预测可以用来调解它自己的提示，显著进步了无监督设置下的预测精度。
广义交叉熵(GCE)丧失的定义

****在这项工作中，我们证明白上述提示调谐框架[51]对噪声标签体现出惊人的鲁棒性。然而，这种鲁棒性可以通过利用广义交叉熵(GCE)丧失[47]来优化可学习提示来进一步加强，这是交叉熵丧失的一种鲁棒推广。正式地，GCE丧失定义为

如[47]所示，当 x → 0 x\rightarrow 0 x→0 时，GCE相称于Eq. 2的标准交叉熵丧失，当 q = 1 q=1 q=1 时，GCE相称于(鲁棒)平均绝对偏差(MAE)丧失 ∣ ∣ 1 − P r ( y = c ∣ x ) ∣ ∣ 1 {||1-Pr(y=c|x)||}_1 ∣∣1−Pr(y=c∣x)∣∣1。因此，超参数 q q q可以控制高鲁棒但性能较差的MAE丧失与低鲁棒但性能较高的CE丧失之间的权衡。
提示调优对噪声标签具有鲁棒性

这个结果表明，与其他选择相比，提示调优自然更能反抗噪声标签。然而，我们表明，通过利用鲁棒广义交叉熵丧失来训练提示，可以进一步加强其鲁棒性。
鲁棒性归因

图3:研究图像和文本编码器对提示调优和提示设计的影响的不同结构示意图。红色突出表现的块将被训练，而灰色突出表现的块将被冻结。

(a)文本编码器对于提供文本嵌入的强大但信息丰富的正则化以对抗噪声输入(Prompt Tuning vs .s.classifiers)至关紧张。分类器);(b)文本编码器应该固定以防止过拟合(提示调谐vs . TEnc-FT)。

此分析验证了我们的假设，即固定的classname令牌确实是提示调优的关键正则化。
提示调谐克制噪声梯度

图4表现了在四个数据集上训练模子时的噪声-清洁梯度范数比。可以看到，提示调优表现的比率明显低于线性探测。这表明，与线性探针相比，噪声样本在提示调谐中起相对较小的作用。这种特性可能是由于高度束缚的提示调优，这限定了模子拟合噪声标签。
无监督的提示调谐

Robust UPL。在第4节中，我们展示了提示调优对有噪声的标签具有鲁棒性。此外，我们还证明白利用广义交叉熵丧失(GCE)可以进一步加强提示调谐的鲁棒性。鉴于这些观察结果，我们发起通过1)随机样本训练样本和2)利用鲁棒GCE丧失优化提示来实验无监督提示调谐。随机抽样有两种结果。一方面，它增加了训练样本的多样性，有利于学习。另一方面，它增加了标签噪声的数目。然而，我们渴望我们坚固的提示调优框架能够容忍标签噪声。

在三种方法中，在GCE丧失下训练的鲁棒UPL平均性能最好。我们再次强调，鲁棒UPL随机采样伪标记图像举行训练，而不是像UPL那样利用高置信度样本。因此，UPL训练伪标签的多样性较小，但噪声较小。例如，用于在Caltech上训练UPL的伪标签的精确率为93%，而用于训练Robust UPL的伪标签的精确率仅为83%。然而，这些错误并没有侵害鲁棒UPL的最终性能;相反，从更多样化的集合中学习，同时对噪声具有鲁棒性，可以加强提示调谐。
摘要

CLIP[28]等视觉语言模子从大规模训练数据中学习通用的文本-图像嵌入。通过小样本的提示调优，可以使视觉语言模子适应新的分类使命。我们发现这种提示调优过程对标记噪声具有很高的鲁棒性。这促使我们去研究促成提示调优范式的鲁棒性的关键原因。我们举行了大量的实验来探索这一特性，发现关键因素是:1)固定的类名令牌为模子的优化提供了强正则化，减少了由噪声样本引起的梯度;2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大的先验知识。此外，我们证明白CLIP的噪声零样本预测可以用来调解它自己的提示，显著进步了无监督设置下的预测精度。代码可在https://github.com/CEWu/PTNL上得到。
1. 介绍

大规模的视觉语言模子，如CLIP[28]、ALIGN[13]和CoCa[44]正在改变我们学习和与视觉表征交互的方式。由于这些模子学习将一组广泛的自然图像的体现与其文本描述对齐，因此它们表现出以数据高效的方式办理各种使命的卓越能力。例如，利用预训练的文本编码器，可以通过编码规范句子(如“A photo of a ”)得到一组类嵌入，并利用它们来识别没有标记数据集的对象。固然Zhou等人[51]很有希望，但他们表明，这些人为定义的句子(也称为类提示)可能是不稳固的，看似等同的描述会导致不同的预测。为了办理这个题目，研究人员专注于提示调优[51]，此中通过反向流传从小目标数据集中学习可学习的提示。因为只须要训练提示符，所以这个框架的数据效率很高。因此，即时调优在使视觉语言模子适应下游使命(如少样本学习[51,50]、连续学习[39]和目标分割[29])方面越来越受欢迎。
固然在利用精确注释的数据集训练下游使命时，提示调优已被证明是有效的，但它们对噪声标签的鲁棒性被忽视了。由于很多应用程序的注释质量可能很低，因此利用噪声标签举行学习对于办理实际题目至关紧张。在这项工作中，我们证明白提示调谐对噪声标签具有鲁棒性，并研究了实现这种鲁棒性的机制。我们假设视觉语言模子的联合文本和图像嵌入可以为分类空间提供一个良好定义的结构(例如，哪些类别彼此最相似，哪些类别彼此最不同)。这种模子信息结构补偿了由于标签噪声而导致的数据中结构的退化。为了验证这一假设，我们举行了大量的实验来研究带有噪声标记数据的提示调优使命的每个组成部分的影响。除告终构化标签空间所赋予的鲁棒性之外，我们还表明，当利用鲁棒丧失函数来训练可学习提示时，这种鲁棒性可以进一步加强，从而减轻离群值的影响。我们的研究揭示了几个有趣的发现。

图1:在两个具有增量噪声率的训练标签的数据集上与迁移学习方法的比较。ImageNet微调是在ImageNet上微调预训练模子。对于CLIP预训练模子，提示调谐对线性探测方式的鲁棒性要强得多。通过结合广义交叉熵(GCE)[47]，我们进一步进步了提示调谐对噪声标签的鲁棒性。ResNet-50被用作所有方法的图像编码器。
首先，通过预先训练的CLIP模子调解提示得到的分类性能对噪声标签的鲁棒性明显高于传统的微调或线性探测范式(见图1)。提示调解的鲁棒性不仅是因为它们在更高噪声率下的性能下降较小，而且还因为它能够减少由噪声样本引起的梯度。其次，固然用共享的可学习提示来启动每个类对于自适应是须要的，但确保类名称保留在提示中可以强烈地正则化类嵌入，并防止过度拟合到有噪声的标签。最后，我们展示了这种鲁棒性的好处，CLIP零样本(噪声)预测可以用来调解自己的提示，并显着进步CLIP预测的准确性。事实上，我们表明，与其关注具有自负预测的样本(如先前无监督提示调谐方法[12]中提出的那样)，提示调谐从训练样本的多样性增加中获益更多，因为它可以容忍与之相关的更嘈杂的预测。
我们的工作主要贡献如下:
•我们证明白预训练的视觉语言模子(如CLIP)的提示调优比传统的迁移学习方法(如模子微调和线性探针)对噪声标签的鲁棒性更强。
•我们进一步证明，通过利用鲁棒训练目标，可以进一步加强提示调优鲁棒性。
•我们对为什么提示调优对噪声标签具有鲁棒性举行了广泛的分析，以发现哪些组件对其鲁棒性贡献最大。
•基于这一特性，我们提出了一种简单而有效的无监督提示调优方法，表明随机选择的噪声伪标签可以有效地用于加强CLIP零样天性能。提出的鲁棒提示调优在各种数据集上优于先前的工作[12]，纵然利用更嘈杂的伪标签举行自我训练。
2. 相关工作

提示调优视觉语言模子

在过去的几年中，视觉语言预训练模子(visual language Pre-Trained Models, VL-PTMs)取得了巨大的进步[28,13,41,44]。CLIP[28]被认为是VL-PTMs的代表性模子。与传统的微调范例不同，CLIP应用提示工程将类别信息合并到文本输入中，使其预训练模子无需进一步训练即可适应各种图像分类使命。然而，设计一个合适的提示是具有挑战性的，须要启发式的方法。CoOp[51]引入了针对目标数据集优化的可学习提示来办理这个题目。为了进一步扩展CoOp的泛化，CoOp[50]引入了一个轻量级网络，将来自图像输入的额外信息添加到可学习的提示符中。CoOp还因忽视视觉体现的多样性而受到批评。相比之下，ProDA[18]通过利用不同的提示来捕捉不同视觉体现的分布来办理这个题目。与上述监督调优方法相反，UPL[12]提出了一个框架，可以在没有标记数据的情况下实验提示调优。TPT[23]通过仅利用单个测试样本动态调解提示来实现零样本迁移。除了图像分类的下游使命外，近来的工作还将CLIP的提示调谐应用于各种盘算机视觉使命，如物体检测[29,6]、视频理解[16,14]和多标签识别[36]。这些作品揭示了提示调优的进一步潜力。
标签噪声鲁棒学习

深度神经网络(DNNs)在无标签噪声的分类使命中得到了很好的研究。然而，如果训练数据中包含标签噪声，DNNs 很容易对有噪声的标签过拟合[45]。为了降服这个题目，一些研究试图通过一些方法来进步DNNs的噪声鲁棒性，包括容忍噪声标签的鲁棒丧失[8,47,38,19]，估计转移矩阵以改正预测的丧失校正方法[26,11,3,31,21,34,43,42]，元学习框架学习改正训练样本中的标签噪声[17,32,15,33,48,49]和定制的正则化技术，以降低噪声的负面影响[46,27,10,40]。在这项工作中，我们证明白CLIP的提示调谐自然具有强大的噪声鲁棒性。我们探究了这种鲁棒性背后的关键因素，并展示了它在无监督提示调谐中的应用。
3. 提示优化

CLIP[28]可以通过提示工程——为下游使命设计文本输入的实践——来实验零射击转移。具体来说，在图像分类的情况下，通过将图像 x x x 传递给CLIP的视觉编码器，得到一个归一化图像嵌入 f v f^v fv，通过将“A photo of a ”的模板提示输入CLIP的文本编码器，得到一组归一化的类嵌入 { f i t } i = 1 K \{f^t_i\}^K_{i=1} {fit}i=1K 。类后验估计为

此中 τ \tau τ 是由CLIP学习的温度因子，sim体现余弦相似度
提示调优固然CLIP能够零样本迁移，但其性能对设计的文本提示很敏感。为了避免手工提示并进步传输性能，CoOp[51]表明，可以用连续的软提示代替文本提示，并在目标数据集上举行优化。具体来说，首先将类 c c c 的名称转换为嵌入 w c ∈ R d w_c \in R^d wc∈Rd 的类名，并在其前面加上所有类共享的 M M M 个可学习令牌 p m ∈ R d p_m \in R^d pm∈Rd 的序列。完备提示符 P c = [ p 1 , p 2 , … , p M , w c ] P_c=[p_1,p_2,\ldots,p_M,w_c] Pc=[p1,p2,…,pM,wc] 然后CLIP的文本编码器对每个类 c c c 举行处理，盘算相应的文本嵌入 f c t f^t_c fct，通过式1再次得到类后验 P r ( y = i ∣ x ) Pr(y=i|x) Pr(y=i∣x)。为了使提示符适应目标数据集，CoOp[51]优化了共享可学习令牌 p 1 , p 2 , … , p M p_1,p_2,\ldots,p_M p1,p2,…,pM 在一个小的标记数据集 D = { ( x i , c i ) i = 1 N } D=\{{(x_i,c_i)}^N_{i=1}\} D={(xi,ci)i=1N}上，以最小化交叉熵丧失

妥当的提示调优在这项工作中，我们证明白上述提示调谐框架[51]对噪声标签体现出惊人的鲁棒性。然而，这种鲁棒性可以通过利用广义交叉熵(GCE)丧失[47]来优化可学习提示来进一步加强，这是交叉熵丧失的一种鲁棒推广。正式地，GCE丧失定义为

如[47]所示，当 x → 0 x\rightarrow 0 x→0时，GCE相称于Eq. 2的标准交叉熵丧失，当 q = 1 q=1 q=1 时，GCE相称于(鲁棒)平均绝对偏差(MAE)丧失 ∣ ∣ 1 − P r ( y = c ∣ x ) ∣ ∣ 1 {||1-Pr(y=c|x)||}_1 ∣∣1−Pr(y=c∣x)∣∣1 。因此，超参数 q q q可以控制高鲁棒但性能较差的MAE丧失与低鲁棒但性能较高的CE丧失之间的权衡。固然 q q q 的最佳值可以通过交叉验证调解到噪声的数目，但我们发现 q = 0.7 q=0.7 q=0.7 在几个实验设置中导致总体良好的性能。
4. 带标签噪声的提示微调分析

基于提示调优的CLIP方法[28]已被证明在小样本学习中是有效的[51,50]。然而，这些方法已经在具有美满标签的数据集上举行了研究。目前尚不清晰在标签噪声下怎样举行提示调谐。我们探索了这个实际的训练情况，并提出了我们的主要发现。
4.1. 实验设置

数据集。我们对多种视觉使命举行了深入的研究，包括通用对象分类、细粒度识别、动作识别和纹理识别。我们对八个数据集OxfordPets[25]、Food101[2]、DTD[4]、UCF101[35]、Flowers102[24]、fgvcaircraft[22]、Caltech101[7]和ImageNet[30]举行了实验分析。由于提示调优的主要好处之一是它的数据效率[12]，我们将研究重点放在一个16张照片的图像分类题目上，即对于每个数据集，我们为每个类选择16张图像作为我们的训练集。为了检验噪声对提示调优的影响，我们用不同水平的噪声率(12.5%，25%和50%)随机扰动训练标签。除非另有说明，否则从数据集的其他类别中均匀随机抽取噪声标签。我们陈诉了在所有实验中利用不同训练集的四次运行的平均结果。
Backbone。我们采用预训练的CLIP模子，纵然用63M参数文本转换器[37]作为文本编码器，利用ResNet-50[9]或ViT-b /32[5]作为视觉编码器。根据CoOp[50]，我们在所有类别共享的每个提示中利用16个可学习令牌.
优化。利用随机梯度下降(SGD)，动量为0.9，初始学习率为0.002，利用余弦衰减筹划退火为零，批量大小为32，训练50个epoch.
4.2. 提示调优对噪声标签具有鲁棒性

图2:将广义交叉熵(GCE)[47]丧失与最初利用交叉熵训练的Prompt Tuning和Linear Probe方法相结合，可以加强其噪声鲁棒性。在高噪声率下，GCE的提示调谐在四个数据集上的体现明显优于其他方法。
本文的核心观察是，提示调谐视觉语言模子，如CLIP，对噪声标签具有惊人的鲁棒性。这可以通过比较CLIP与两种传统迁移学习方法的提示调谐来观察:1)在CLIP的视觉体现(体现CLIP linear Probe)上训练线性分类器;和2)微调在ImageNet上预训练的相同视觉主干。在DTD和UCF101两个数据集上的结果分别如图1 (a)和(b)所示。可以看出，只管线性探针和微调在完全标记数据(0%噪声率)下实现了具有竞争力的性能，但在25%和50%的高噪声率下，这两种方法的准确性都会显著下降。这个结果表明，与其他选择相比，提示调谐自然更能反抗噪声标签。然而，我们表明，通过利用鲁棒广义交叉熵丧失(图1中称为CLIP提示调谐(GCE))来训练提示，可以进一步加强其鲁棒性。可以看到，当将提示调谐和GCE结合起来时，模子的性能仍旧具有很强的竞争力，纵然噪声率高达50%。此外，我们观察到这种鲁棒性源于提示调谐和GCE的结合，而不是单独来自GCE。这可以从图2中看到，它描述了在四个数据集上的交叉熵和GCE丧失下训练的提示调谐和线性探针的噪声鲁棒性。固然线性探针的鲁棒性也随着GCE丧失而进步，但通过提示调谐学习时，在高噪声率下的性能下降明显更小。
既然我们已经建立了提示调谐的噪声鲁棒性，本节的别的部分将致力于提供直觉和实验分析来回答为什么这个题目。

题目:为什么像clip如许的视觉语言模子的提示调谐比传统的针对噪声标签的迁移学习更坚固?
4.3. 鲁棒性归因

图3:研究图像和文本编码器对提示调优和提示设计的影响的不同结构示意图。红色突出表现的块将被训练，而灰色突出表现的块将被冻结。
为了回答这个题目，我们首先单独分析CLIP的两个关键组件，即天生的类嵌入和可学习提示
预训练的CLIP天生有效的类嵌入。我们首先分析由CLIP文本编码器天生的类嵌入的影响。为此，除了通过提示调谐天生的类嵌入外，我们还评估了三种不同模子的噪声鲁棒性:
Classifier-R在CLIP预训练的视觉编码器的输出上训练一个线性探针。类嵌入(即分类器权重)是随机初始化的，并且在没有束缚的情况下学习。拜见图3 (a)。
Classifier-C与Classifier-R相似，但是分类器权重是利用从CLIP的预训练文本编码器得到的文本嵌入来初始化的，用于手工制作提示符。留意，Classifier-C仅利用CLIP文本编码器初始化其权重。拜见图3 (b)。
TEnc-FT通过eq.(1)的后验将精确类的图像嵌入 f v f^v fv 与CLIP文本嵌入 f t f^t ft 相关联，从而训练CLIP分类器。
在本例中，整个CLIP文本编码器在““A photo of a ”情势的手工提示符上举行微调。拜见图3 ©。

表1:不同变量在增量噪声率下的传输性能比较。
表1比较了不同标签噪声水平下四个数据集上的各种模子。具有CLIP初始化的线性分类器(Classifier-C)在所有噪声级别上都优于随机初始化。这表明CLIP类嵌入为小样本学习提供了强大的初始化。此外，只管两种分类器在高噪声比下都会严重退化，但CLIP初始化对噪声的鲁棒性也更强。对于TEnc-FT，它在零噪声率下取得了具有竞争力的性能，但随着噪声率的增加，其准确率也显著下降。这突出了(绝不希奇)，高体现力的CLIP文本编码器可以很容易地过拟合噪声标签。最后，在所有噪声率下，提示调谐优于所有更换计谋。对于高噪音水平，提示调谐的上风尤其大。这些观察结果证实:(a)文本编码器对于提供文本嵌入的强大但信息丰富的正则化以对抗噪声输入(Prompt Tuning vs .s.classifiers)至关紧张。分类器);(b)文本编码器应该固定以防止过拟合(提示调谐vs . TEnc-FT)。
提示的有效性。先前的实验表明，CLIP预训练文本编码器天生的类嵌入对噪声鲁棒性起着至关紧张的作用。接下来，我们保持文本编码器固定稳定，并尝试回答另一个题目:提示符的哪些组件为提示调优提供噪声鲁棒性?
我们假设classname令牌 w c w_c wc 为模子提供了强大的正则化，因为文本编码器利用它来编码不同视觉概念之间的关系(例如，类彼此之间的相似或不同水平)。尊重这一结构有助于模子在训练过程中避免拟合有噪声的数据。为了验证我们的假设，我们评估了另外两个模子的噪声鲁棒性:
Full Prompt Tuning与原始可学习令牌一起学习classname令牌(拜见图3 (e))。
CLS Tuning 采用固定的模板提示符“a photo of a ”，只优化classname令牌(见图3(f))。

表2:不同提示设计在增加噪音率下的传递性能比较。
表2表现了对不同噪声水平的四个数据集的分析。与仅优化所有类共享的可学习令牌的prompt-tuning模子相比，CLSTuning和Full-Prompt-Tuning模子都在高噪声率下挣扎。纵然训练数据是干净的，学习类名令牌在四个数据集中的两个(OxfordPets和Food101)上也会产生更差的性能。此分析验证了我们的假设，即固定的classname令牌确实是提示调优的关键正则化。可学习的类名标记可以安装到训练数据，干扰类嵌入并导致更差的性能。
4.4. 提示调谐克制噪声梯度

前一节提供了与其他更换方案相比，提示调优框架的坚固性的明白证据。这些发现表明，通过只学习共享的提示令牌，提示调优可以更好地关注干净的样本而不是有噪声的样本。换句话说，提示调优可以克制来自噪声样本的梯度更新，同时聚合来自干净样本的梯度。为了验证这一假设，我们利用50%的噪声率测量CLIP提示调谐和线性探测的可学习参数的梯度。具体来说，我们测量了由噪声样本和干净样本引起的梯度范数之比。比值大于1表明有噪声样本比干净样本在优化中的作用更大。

图4:我们通过评估两种方法的噪声-清洁梯度范数比(噪声梯度率)来评估两种方法克制噪声梯度的能力。这个比率是通过对可学习参数取梯度的L2范数来确定的，我们通过在每个训练时期向模子提供64个干净样本和64个有噪声样原来盘算。
具体来说，我们在噪声率为50%的数据上训练模子。在4个数据集上的实验结果表明，与Linear Probe相比，Prompt Tuning实现了更低的噪声梯度率，表明其具有更好的克制噪声梯度的能力。
图4表现了在四个数据集上训练模子时的噪声-清洁梯度范数比。可以看到，提示调优表现的比率明显低于线性探测。这表明，与线性探针相比，噪声样本在提示调谐中起相对较小的作用。这种特性可能是由于高度束缚的提示调优，这限定了模子拟合噪声标签。
4.5. 跨模子体系结构的泛化

前几节主要介绍了四个数据集(OxfordPets、Food101、DTD和UCF101)和一个ResNet-50图像编码器。我们如今展示了这些发如今模子架构和数据集之间的推广。

图5:不同上下文长度的提示调谐噪声鲁棒性研究。Ctx- x x x体现具有 x x x 个可学习标记的模子。
上下文的长度。我们首先评估随着可学习标记数目标增加，提示调谐的噪声鲁棒性。我们还通过直接将类名输入模子(体现为Ctx-0)来评估没有任何可学习标记的基线。图5表现了最佳上下文长度依靠于数据集，但与传统的线性探测相比，所有上下文长度都具有更好的性能。Ctx-0在50%的大噪声率下优于一些提示调优变体，这表明当下游使命上的标签噪声太强时，固定提示可能是一个不错的选择。

表3:利用ResNet50或ViTB /32作为图像编码器在8个数据集上的提示调谐(PT)的噪声鲁棒性。
图像编码器。为了验证提示调谐的噪声鲁棒性是否与主干无关，我们还评估了CLIP用vitb /32举行提示调谐(记ViT-B /32- pt)。表3表现了与RN50-PT的比较。ViT-B/32-PT在大多数设置下优于RN50-PT。此外，这两种方法都不会遭受大的性能下降，并在高噪声率下保持具有竞争力的准确性。
4.6. 对相关标签噪声的鲁棒性

到目前为止，我们假设有白色标签噪声(即从标签空间中均匀抽取有噪声的标签)。然而，由人类注释者或机器天生的伪标签产生的标签噪声通常表现相似视觉概念之间的相关性。例如，UPL[12]观察到，在零样本转移过程中，预训练的CLIP更喜好某些类别。受这一观察结果的启发，我们研究了CLIP固有偏好在面对CLIP天生的标签噪声时是否会影响提示调优的性能。

图6:利用随机提示令牌对100次运行中的零样天性能举行平均天生的肴杂矩阵

表4:50%噪声率下随机和肴杂标签噪声对线性探测和提示调谐计谋的影响。
我们首先在OxfordPets和UCF101数据集上利用随机初始化的可学习标记来测量CLIP零样本预测的肴杂矩阵(见图6)。接下来，我们引入一种具有挑战性的标签噪声类型，称为肴杂噪声，此中每个错误标记的样本都被标记为最受零样本CLIP青睐的错误类别。最后，我们研究了在50%噪声率下随机噪声和肴杂噪声下的提示调谐的传输性能。表4给出了四个数据集的结果。可以看出，与随机噪声相比，肴杂噪声对迁移学习提出了更大的挑战，导致高噪声比下的分类精度下降更大。这种退化对于提示调优和线性探头都是可见的。然而，在这两种方法中，提示调谐仍旧可以得到最佳的团体性能，这进一步证明白它的鲁棒性，纵然是对更具挑战性的噪声类型。
5. 应用于无监督的提示调谐

先前的工作UPL[12]表明，无监督的提示调谐可以优于基于CLIP的零样本迁移的传输性能。然而，UPL并没有充实利用提示调谐的噪声鲁棒性。

图7:无监督提示调优的管道。它包括两个主要阶段:伪标记和提示调优。首先，我们通过利用带有模板提示的CLIP为目标数据集天生伪标签。接下来，我们从伪标签中随机选择每个类的样本举行后续训练。最后，我们利用选择的伪标记样原来优化可学习的提示体现。
Baseline UPL。UPL[12]提出了一个框架，使CLIP适应下游没有任何标记图像的使命。该框架的概述如图7所示。该框架分为两个阶段。在阶段1中，UPL利用预训练的CLIP为未标记的图像天生伪标签。然后，在阶段2中，选择一组K个伪标签，通过典型的提示调优优化过程(CoOp[51]中描述)来优化可学习令牌。为了进步训练样例的质量，UPL根据它们的置信度得分(Eq. 1)对所有伪标记图像举行排序，并在每个类中选择K个最具置信度的样本。此外，受CLIP中的提示集成的启发[28]，UPL通过集成由具有不同可学习提示的模子天生的多个预测来进步迁移性能。
Robust UPL。在第4节中，我们展示了提示调优对有噪声的标签具有鲁棒性。此外，我们还证明白利用广义交叉熵丧失(GCE)可以进一步加强提示调谐的鲁棒性。鉴于这些观察结果，我们发起通过1)随机样本训练样本和2)利用鲁棒GCE丧失优化提示来实验无监督提示调谐。随机抽样有两种结果。一方面，它增加了训练样本的多样性，有利于学习。另一方面，它增加了标签噪声的数目。然而，我们渴望我们坚固的提示调优框架能够容忍标签噪声。
实验设置。我们利用与第4节相同的训练设置举行无监督提示调优实验。伪标签由CLIP零样本迁移与ResNet50图像编码器天生。我们遵照CLIP利用的提示工程。有三种类型的手工制作提示，在补充材料中列出了更多具体信息。K在所有实验中都被设置为16。在推理阶段，我们采用UPL[47]的集成平均方法，结合四个不同模子的输出来天生预测。每个模子都有一个独特的可学习提示，用一个唯一的随机种子初始化。

表5:CLIP零样天职类与三种无监督提示调优计谋的比较:UPL[12]，以及我们利用交叉熵和广义交叉熵丧失训练的鲁棒UPL框架。
实验结果。我们比较了UPL[12]和提出的鲁棒UPL在一系列不同的视觉使命上的体现，包括通用对象分类、细粒度识别和纹理识别。我们还利用交叉熵(CE)和广义交叉熵(GCE)丧失来评估鲁棒UPL。表5表现了所有三种无监督提示调优方法都可以进步迁移学习，而不须要额外的标记成本。在三种方法中，在GCE丧失下训练的鲁棒UPL平均性能最好。我们再次强调，鲁棒UPL随机采样伪标记图像举行训练，而不是像UPL那样利用高置信度样本。因此，UPL训练伪标签的多样性较小，但噪声较小。例如，用于在Caltech上训练UPL的伪标签的精确率为93%，而用于训练Robust UPL的伪标签的精确率仅为83%。然而，这些错误并没有侵害鲁棒UPL的最终性能;相反，从更多样化的集合中学习，同时对噪声具有鲁棒性，可以加强提示调谐。
6. 结论

在本文中，我们提供了一个全面的研究鲁棒性标记噪声的提示调谐大型视觉语言模子(即CLIP)。通过一系列实验，我们证明白提示调谐的噪声鲁棒性可以归因于CLIP预训练的文本编码器对类嵌入施加的结构。我们进一步证明，通过减少标签噪声引起的梯度，提示调优可以缓解对错误标记样本的过拟合。我们对不同的模子设置(如主干和上下文长度)举行了广泛的实验，得到了同等的结果和结论。最后，受我们研究结果的启发，我们提出了一种新的鲁棒的无监督提示调优方法，该方法支持多样性而不是精确的预测，以进步迁移性能。
参考资料

论文下载(ICCV 2023)

https://arxiv.org/abs/2307.11978

代码地址

https://github.com/CEWu/PTNL

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块