论文条记
资料
1.代码地址
2.论文地址
https://arxiv.org/abs/2301.13018
3.数据集地址
https://github.com/bwbwzhao/DELTA
论文摘要的翻译
完全测试时间自适应旨在使预训练模子在及时推理过程中适应测试数据流,当测试数据分布与训练数据分布差异时,这种方法很有效。为进步适应性能作出了多少努力。然而,我们发现,在一些刘硎的的自适应方法中,如测试时批量归一化(BN)和自学习,隐藏了两个倒霉的缺陷。首先,我们指明了测试时间BN中的归一化统计量完全受当前接收的测试样本的影响,会导致不准确的估计。其次,我们证明了在测试时间自适应过程中,参数更新偏向于一些上风类。除了广泛研究的具有独立和类平衡样本的测试流之外,我们还观察到,在更复杂的测试环境中,例如(时间)相干或类不平衡的数据,缺陷可能会加剧。我们观察到,以前的方法在某些情况下运行良好,而在其他情况下由于其故障而导致性能降落。在本文中,我们提供了一种称为DELTA插件式的解决方案,用于Degradation-freE测试时间自适应,它由两个部门组成:(i)测试时间批量重归一化(TBR),用于改进估计的归一化统计信息。(ii)动态在线重新加权(DOT),旨在解决优化中的种别毛病。我们在三个常用的四种场景的数据集和一个新引入的真实天下数据集上研究了各种测试时间自适应方法。DELTA可以帮助他们同时处置惩罚全部场景,从而进步SOTA的性能。
1背景
只管取得了进展,但我们发现,在盛行的方法中隐藏着不可忽视的缺陷。首先,我们细致研究推理中的归一化统计数据(第3.2节)。我们观察到,与实际的统计数据相比,BN自适应中使用的统计数据在每批中是不准确的。其次,我们揭示了普遍的测试时间模子更新偏向于一些主要种别(第3.3节)。我们留意到,在分布外的数据上,模子猜测极不平衡,基于自学习的自适应方法可能会加剧这种情况。除了现有研究中考虑的最常见的独立和类平衡测试样本外,我们调查了图1所示的其他三种测试场景(请参见第3.1节中的详细信息),并发现劈面对更复杂的测试流,如依赖样本或类不平衡数据时,盛行的方法将遭受严重的性能退化,这限制了这些测试时间自适应策略的有用性。
- IS+CB (Independent Sampling + Class-Balanced):
测试流是从种别平衡的测试分布中独立采样得到的。这意味着每个种别的样本在测试会合出现的概率是相同的,并且每个样本的抽取是相互独立的。
- DS+CB (Dependent Sampling + Class-Balanced)
测试流是从种别平衡的测试分布中依赖采样得到的。这可能意味着某些种别的样本在测试会合出现的概率较高,或者样本之间存在某种依赖关系。
- IS+CI (Independent Sampling + Class-Imbalanced)
测试流是从种别不平衡的测试分布中独立采样得到的。这种情况下,某些种别的样本数目可能会远远多于其他种别。
- DS+CI (Dependent Sampling + Class-Imbalanced)
测试流是从种别不平衡的测试分布中依赖采样得到的。这可能导致测试会合某些种别的样本非常会合,而其他种别的样本则很少。
为了解决上述问题,我们提出了两个强盛的工具。具体来说,为了处置惩罚不准确的归一化统计,我们引入了测试时间批量重整化(TBR)(第3.2节),它使用测试时间移动均匀统计来校正归一化特征,并在梯度优化过程中考虑归一化。通过利用观察到的测试样本,校准的归一化更加准确。我们进一步提出了动态在线重新加权(DOT)(第3.3节)来解决毛病优化,这是从成本敏感学习中得出的。为了平衡适应,DOT将低/高权重分配给频仍/不频仍种别。权重映射函数基于动量更新的类频率向量,该向量考虑了种别毛病的多个泉源,包括预训练的模子、测试流和自适应方法(这些方法通常对某些类没有固有的毛病,但可以强调现有的毛病)。TBR可以直接应用于常见的基于BN的预训练模子,并且不会干扰训练过程(对应于完全测试时间的自适应设置),并且DOT也可以很容易地与其他自适应方法相结合。
表1将我们的方法与CIFAR100-C的其他方法在各种场景下举行了比较。现有的测试时间自适应方法在四种场景中体现差异,在某些场景中体现出性能降落。而我们的工具在没有任何测试数据先验知识的情况下同时在全部四种场景中都体现良好,这对现实天下的应用程序很紧张。因此,整个方法被定名为DELTA(降级频率-频率-测试时间自适应)
种别不平衡学习。利用种别不平衡数据举行训练引起了广泛关注。Cost-sensitive learning和resampling是处置惩罚这一问题的经典策略。Ren等人(2018)计划了一种元学习范式,为样本分配权重。类平衡损失在实行重新加权时使用有效样本数。解耦训练分别学习特征提取器和分类器。Menon等人(2021)从统计学角度提出logit调整。其他技能,如权重平衡、对比学习、知识蒸馏等也被应用于解决这一问题。
2论文的创新点
- 指明了常用的测试时间自适应方法的缺陷,这些缺陷最终损害了自适应性能。
- 本文证明,在复杂的测试环境中,缺陷会更加严重,导致性能降落。
- 为了实现无退化的完全测试时间自适应,我们提出了DELTA,它包括两个组成部门:TBR和DOT,以改进归一化统计估计并减轻优化中的毛病。
- 我们在具有四个场景的三个常见数据集和一个新引入的真实天下数据集上评估了DELTA,发现它可以在全部场景上持续改进盛行的测试时间自适应方法,产生新的最先辈的结果。
3 论文方法的概述
3.1 问题界说
假设我们有训练数据 D t r a i n = ( x i , y i ) i = 1 N t r a i n ~ P t r a i n ( x , y ) D^{train}={{(x_i,y_i)}}^{N^{train}}_{i=1}~P^{ train}(x,y) Dtrain=(xi,yi)i=1Ntrain~Ptrain(x,y),其中 x ∈ X x∈\mathcal X x∈X是输入, y ∈ Y = { 1 , 2 , ⋅ ⋅ ⋅ , K } y\in \mathcal Y=\{1,2,···,K\} y∈Y={1,2,⋅⋅⋅,K}是目标标签; f { θ 0 , a 0 } f_{\{\theta_0,a_0\}} f{θ0,a0}表示在 D t r a i n D^{train} Dtrain上学习或估计的具有参数 θ 0 \theta_0 θ0和归一化统计量 a 0 a_0 a0的模子。在不通用性的情况下,我们将测试流表示为 D t e s t = { ( x j , y j ) } j = 1 N t e s t ∼ P t e s t ( x , y ) \mathcal{D}^{\mathrm{test}}=\{(x_{j},y_{j})\}_{j=1}^{N^{\mathrm{test}}}\sim P^{\mathrm{test}}(x,y) Dtest={(xj,yj)}j=1Ntest∼Ptest(x,y),其中 { y j } \{y_j\} {yj}实际上不可用,下标 j j j也表示测试流中的样本位置。当 P t e s t ( x , y ) ≠ P t r a i n ( x , y ) P^{\mathrm{test}}(x,y)\neq P^{\mathrm{train}}(x,y) Ptest(x,y)=Ptrain(x,y)(输入/输出空间 X / Y \mathcal X / \mathcal Y X/Y在训练和测试数据之间是一致的)时, f { θ 0 , a 0 } f_{\{\theta_0,a_0\}} f{θ0,a0}可能在 D t e s t D^{test} Dtest上体现不佳。在完全测试时间自适应方案下,在推理时迭代step t≥1期间,模子 f { θ t − 1 , a t − 1 } f_{\{\theta_{t-1},a_{t-1}\}} f{θt−1,at−1}接收一个小批量测试数据 { x m t + b } b = 1 B \{x_{m_{t}+b}\}_{b=1}^B {xmt+b}b=1B,批量大小为B( m t m_t mt是推理步骤t之前观察到的测试样本数),然后基于当前测试小批量将其自身提升到 f { θ t , a t } f_{\{\theta_{t},a_{t}\}} f{θt,at},并输出及时猜测 { p m t + b } b = 1 B ( p ∈ R K ) . \{p_{m_{t}+b}\}_{b=1}^{B}(p\in\mathbb{R}^{K}). {pmt+b}b=1B(p∈RK).。最后,基于每个推理步骤的在线猜测来计算评估度量。完全测试时间自适应强调在及时推理过程中完全实行自适应,即训练过程不能停止,训练数据在测试过程中不再可用,并且自适应应在测试流上的一次通过中完成。
最常见的假设是, D t e s t D^{test} Dtest独立于 P t e s t ( x , y ) P^{test}(x,y) Ptest(x,y)举行采样。在现实环境中,这一假设并不总是成立的,例如,某些种别的样本可能在某一时间段内更频仍地出现,这导致了另一个假设:测试样本是依赖性采样的。大多数研究只考虑了具有类平衡测试样本的场景,而在现实天下中,测试流可以是类平衡的。考虑到潜在抽样策略和测试种别分布,我们在以下四种情况下全面研究了测试时间适应性。为了方便起见,我们将测试样本从类平衡测试分布中独立/依赖地采样的场景表示为IS+CB/DS+CB;表示从IS+CI/DS+CI类不平衡测试分布中独立/依赖地采样测试样本的场景,如图1所示。其中,IS+CB是FTTA研究中最常见的场景,其他三种场景也经常出现在现实天下的应用中。
3.2 深度研究归一化统计
我们在CIFAR100-C上举行了实验。从图2我们可以看出,BN自适应中使用的统计数据 μ ^ b a t c h , σ ^ b a t c h \hat{\mu}^{\mathrm{batch}},\hat{\sigma}^{\mathrm{batch}} μ^batch,σ^batch在自适应过程中颠簸很大,在大多数测试小批量中都是不准确的。需要留意的是,对于BN自适应,猜测是基于及时统计数据在线举行的,因此较差的估计可能会对性能产生负面影响。更严重的是,DS+CB情景下的估计更糟。在表2中,只管在IS+CB场景中,与Source(使用固定的预训练模子f{θ0,a0}举行测试)相比,BN adapt和TENT可以进步准确性,但在DS+CB情况下,它们会退化。总的来说,我们可以看到,糟糕的统计数据严重阻碍了测试时间的适应,因为它们完全来自当前的小批量。
3.3更深入地了解测试时间参数优化
在BN自适应的基础上,TENT通过熵最小化进一步优化了仿射参数 γ , β γ,β γ,β,并表明与单独使用BN自适应相比,测试时间参数优化可以产生更好的结果。
- 诊断二:测试时间优化偏向种别样本多。
我们在CIFAR100-C的IS+CB和DS+CB高斯噪声粉碎测试数据(高斯)上评估了该模子。我们还在CIFAR100的原始干净测试集上测试了该模子以举行比较。图3形貌了每类猜测的数目,而表3表现了相应的尺度毛病、范围(最大值减去最小值)和准确性。我们得出以下五个结论。
- 即使对于在类平衡训练数据上训练并在类平衡测试集上测试的模子,猜测也是不平衡的,其中 P t e s t ( x , y ) = P t r a i n ( x , y ) P^{test}(x,y)=P ^{train}(x,y) Ptest(x,y)=Ptrain(x,y):图3(左)中的“clean”曲线,尺度毛病8.3,范围46。
- 如图3(左)所示,当 P t e s t ( x , y ) ≠ P t r a i n ( x , y ) P^{test}(x,y)\neq P ^{train}(x,y) Ptest(x,y)=Ptrain(x,y)时,猜测变得更加不平衡:在干净和损坏的测试集上,范围分别为46和956。
- BN自适应+TEMA进步了准确率(从27.0%到58.0%),同时缓解了猜测不平衡(范围从956降落到121.6)。
- 只管TENT+TBR的准确性进一步进步(从58.0%进步到62.2%),但猜测结果却变得更加不平衡(范围从121.6变化到269.8)。熵最小化损失会合在具有低熵的数据上,而由于训练的模子,某些种别的样本可能具有相对较低的熵,因此TENT会加剧猜测不平衡。
- 在相干测试流中,不仅模子精度降落,而且猜测变得更加不平衡(TENT+TBR的独立/相干样本的范围269.8/范围469.2),因为在DS+CB场景中,模子可能在一段时间内被某些种别绝对支配。
在正常训练阶段,不平衡的数据是有害的,导致模子有毛病和整体准确性差。我们的主要动机是,测试时间自适应方法还涉及基于模子猜测的梯度优化;然而,猜测实际上是不平衡的,特殊是对于依赖流或类不平衡流以及强调低熵的自适应方法。因此,我们认为测试时间优化实际上偏向于一些上风类,导致性能较差。偏斜的优化和不平衡的猜测形成了一个恶性循环。
- 处置惩罚方法二
DOT可以缓解有种别毛病的优化。已经开发了许多方法来处置惩罚训练阶段的类不平衡,但当涉及到完全测试时间自适应时,它们面临着几个挑战:(i)网络架构是不可变的。(ii)由于测试样本类频率是动态的和不可知的,使输出分布均匀的共同束缚不再合理。(iii)当测试小批量到达时,推理和自适应必须及时发生(只有一次通过测试数据,没有迭代学习)。
考虑到这些束缚条件,我们提出了算法1中提出的DOT。DOT主要泉源于按种别重新加权。为了处置惩罚动态变化和未知的类频率,我们使用动量更新的类频率向量 z ∈ R K z∈\mathbb R^K z∈RK(算法1的第10行),该向量由 z [ k ] = 1 K , k = 1 , 2 , ⋅ ⋅ ⋅ , K . z[k]=1K,k=1,2,···,K. z[k]=1K,k=1,2,⋅⋅⋅,K.启动。对于每个推理步骤,我们根据每个测试样本的伪标签和当前z为其分配权重(算法1第5,6行)。具体来说,当z[k]相对较大时,在随后的适应过程中,DOT将淘汰第k类样本(伪标签)的贡献,并强调其他样本。值得留意的是,DOT可以同时缓解预训练模子(如类间相似性)、测试流(如类不平衡场景)引起的毛病优化。
DOT是解决有偏优化的一样平常思路,算法1中的一些部门有多个选项,因此它可以与差异的现有测试时间自适应技能相结合。对于“正向(·)”函数(算法1的第3行),可以归并所讨论的BN自适应和TBR。对于损失函数L(·)(算法1的第8行),研究通常接纳熵最小化损失: L ( p b ) = − ∑ k = 1 K p b [ k ] log p b [ k ] \mathcal{L}(p_b) = -\sum_{k=1}^Kp_b[k]\log p_b[k] L(pb)=−∑k=1Kpb[k]logpb[k]或具有伪标签的交织熵损失: L ( p b ) = − I p b [ k b ∗ ] ≥ τ ⋅ log p b [ k ‾ b ∗ ] \mathcal{L}(p_{b}) = -\mathbb{I}_{p_{b}[k_{b}^{*}]\geq\tau} \cdot \log p_{b}[\overline{k}_{b}^{*}] L(pb)=−Ipb[kb∗]≥τ⋅logpb[kb∗]。同样,对于熵最小化,EntW也扬弃了高熵的样本,强调低熵样本: L ( p b ) = − I H b < τ ⋅ e τ − H b ⋅ ∑ k = 1 K p b [ k ] log p b [ k ] \mathcal{L}(p_b)=-\mathbb{I}_{H_b<\tau}\cdot e^{\tau-H_b}\cdot\sum_{k=1}^Kp_b[k]\log p_b[k] L(pb)=−IHb<τ⋅eτ−Hb⋅∑k=1Kpb[k]logpb[k],其中 H b H_b Hb是样本 x b x_b xb的熵。
4 论文实验
- 数据集
我们在常见数据集CIFAR100-C、ImageNetC、ImageNet-R和新引入的视频(片段)数据集:YouTube BoundingBoxes(YTBB sub)的子集(上举行了实验。CIFAR100-C/ImageNet-C包含15种损坏类型,每种类型具有5个严重级别;除非尚有规定,否则我们使用已发表的作为ICLR 2023最高级别的聚会会议论文。ImageNet-R包含ImageNet种别的各种风格(例如绘画)。对于CIFAR100-C的评估,我们接纳Hendrycks等人的训练后的ResNeXt-29)模子。为 f θ 0 , a 0 f{θ_0,a_0} fθ0,a0;对于ImageNet-C/-R,我们使用来自Torchvision的经过训练的ResNet-50模子。在相应的原始训练数据上训练模子。对于YTBB sub,我们使用在COCO的相干图像上训练的ResNet-18。任务、数据集和示例的详细信息见附录A.1。
- 评价指标
我们报告各种别的均匀准确度(Acc,%);在正文中,对CIFAR100-C和ImageNet-C的15种差异损坏类型的结果举行了均匀,请参阅附录A.5、A.6中每种损坏类型的详细性能。
- IS+CB场景中的评估
CIFAR100-C的结果如表4所示。可以看出,所提出的DELTA持续改进了先前的自适应方法PL(增益0.7%)、TENT(增益0.8%)和Ent-W(增益0.8%),实现了新的最先辈的性能。结果还表明,当前的测试时间自适应方法确实存在所讨论的缺点,并且所提出的方法可以帮助它们得到良好的性能。然后,我们在更具挑战性的数据集ImageNet-C上评估了这些方法。与CIFAR100C上的结果一致,DELTA显著改进了现有的方法。由于与ImageNet-C上的类号(1000)相比,自适应批量大小(64)太小,因此之前的方法比CIFAR100-C受到更严重的损害。因此,DELTA在ImageNet-C中得到了更大的增益:比PL增益1.6%,比TENT增益2.4%,比Ent-W增益5.6%。
- DS+CB场景中的评估
为了模拟相干流,根据Yurochkin等人(2019),我们通过浓度因子ρ>0的狄利克雷分布来排列样本(ρ越小,同类样本的浓度就越高,详见附录a.1)。我们用ρ∈{1.0,0.5,0.1}来检验模子。实验结果如表5所示(我们在附录A.4中提供了ρ=0.01的更极端情况的结果)。具有代表性的测试时间自适应方法在相干场景中性能降落,尤其是在小ρ采样的数据上。DELTA成功地帮助模子适应差异浓度因子的环境。值得留意的是,DELTA的DS+CB结果与is+CB结果接近,例如,TENT+DELTA在CIFAR100-C的is+CB和DS+CB(ρ=0.5)测试流上分别到达69.5%和68.5%的准确率。
- IS+CI和DS+CI场景中的评估
我们对具有不平衡因子π的测试样本举行了重新采样(π越小,测试数据就越不平衡,详见附录A.1)。我们测试了π∈{0.1,0.05}的模子(类似地,我们在附录A.4中展示了π=0.001的极端实验)。表6总结了IS+CI和DS+CI场景中的结果,观察结果如下:(i)在类不平衡场景下,性能退化不如依赖性数据严重。这主要是因为不平衡的测试数据对归一化统计的影响相对较小。DELTA在不平衡的测试流上运行良好。(ii)混合DS+CI场景可能比单独场景更困难。在混合场景中,DELTA也可以进步基线。(iii)只管低熵强调方法Ent-W在IS+CB场景中进步了TENT(表4),但在依赖或类不平衡场景中,它可能不如TENT(在表5,6中的ImageNet-C上的结果)。原因是Ent-W导致了一个副作用——放大了阶层私见,这将抵消甚至压倒它的好处。DELTA消除了Ent-W的副作用,同时保存了其长处,因此EntW+DELTA始终显著优于TENT+DELTA。
- 对真实分布外数据集ImageNet-R和YTBB-sub的评估。
ImageNet-R本质上是类不平衡的,由卡通、艺术、绘画、素描、玩具等混合变体组成。如表8所示,DELTA也使其得到了持续的改进。虽然与ImageNet-C相比,ImageNet-R是单独收集的,它由更难识别的硬情况组成,但DELTA的增益不如ImageNet-C。对于YTBB sub,自然会遇到依赖样本和类不平衡样本。我们看到,经典方法受到严重的退化,而DELTA有助于它们得到良好的性能。
- 分布中测试数据的评估。
合格的FTTA方法在不可分割数据集上应该是“安全的”,即 P t e s t ( x , y ) = P t r a i n ( x , y ) P^{test}(x,y)=P^{train}(x,y) Ptest(x,y)=Ptrain(x,y)。根据表7,(i)DELTA继续改善性能,只管略有改善;(ii)大多数自适应方法可以产生与Source相当的结果,并且与DELTA的组合甚至在分布数据上优于Source。
- 使用差异架构举行评估
图4表明,DELTA可以帮助改进以前使用差异模子架构的测试时间自适应方法。附录A.4中提供了更多的分析(例如,小批量、差异严重程度的评估)。
- 溶解实验
DELTA由两个工具组成:TBR和DOT。在表9中,我们在四个场景和两个数据集的TENT的基础上分析了他们的贡献。第1行表示TENT的结果。在TENT上单独应用TBR或DOT在大多数场景和数据会合都会带来收益。然而,我们发现,当测试流是is+CB并且批大小较大时,TBR实现的改进较少(例如,单独对批大小为200的CIFAR100-C的is+CB数据实行TBR自适应并不能进步TENT)。然而,当批量大小相对较小时(例如,ImageNet-C,批量大小为64),TBR的好处将变得显着。更紧张的是,TBR对于依赖样本是非常有效和必要的。DOT可以在全部场景中持续推广TENT或TENT+TBR,尤其是当类数很大时。这些结果表明,不准确的归一化统计和有毛病的优化都是有害的,TBR和DOT可以有效地缓解它们。
- TBR中的α和DOT中的λ的影响。
与大多数基于指数移动均匀的方法类似,当平滑系数α(或λ)太小时,自适应可能不稳固;当α(或λ)过大时,适应会很慢。图5提供了CIFAR100-C(来自验证集)的DS+CB(ρ=0.5)样品上α(左)和λ(右)的溶解研究。我们发现TBR和DOT在较宽的α和λ范围内体现相当好
5总结
在本文中,指明了测试时间自适应方法中导致性能次优甚至退化的缺陷,并提出了DELTA来缓解这些缺陷。首先,BN自适应中使用的归一化统计在很大程度上受到当前测试小批量的影响,这可能是片面的,并且颠簸很大。我们引入TBR来使用(近似的)全局统计来改进它。其次,优化高度偏向于上风类,使模子更有偏向性。DOT通过在线方式重新平衡每个班级的贡献来缓解这个问题。这两个强盛工具的结合产生了我们的插件方法DELTA,它同时在差异的场景(IS+CB、DS+CB、IS+CI和DS+CI)中实现了改进。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |