首个针对利用合成数据训练的模型在不同稳健性指标上进行详细分析的研究,展示了如SynCLIP和SynCLR等合成克隆模型,其性能在可接受的范围内靠近于在真实图像上训练的对应模型。这一结论适用于全部稳健性指标,除了常见的图像破坏和OOD(域外分布)检测。另一方面,监督模型SynViT-B在除形状偏差外的全部指标上均被真实图像对应模型逾越,这清楚地表明确对更好监督合成克隆的需求。通过详细的消融实验,作者发现利用描述或CLIP模板可以产生更稳健的合成克隆。紧张的是,将真实数据与合成数据混淆可以改善大多数指标上的稳健性衡量。
泉源:晓飞的算法工程条记 公众号
论文: Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images
- 论文地址:https://arxiv.org/abs/2405.20469
- 论文代码:https://synbenchmark.github.io/SynCloneBenchmark
Introduction
现代呆板学习方法的性能瓶颈主要受到标签数据的质量和数量的限制。多个研究表明,神经网络的泛化偏差遵循与数据集巨细相干的神经缩放法则,即测试偏差随着数据集巨细的对数线性镌汰。别的,数据集的多样性和公平性也是影响现代神经网络泛化性能的紧张因素。不幸的是,整理多样、公平且规模庞大的数据集既耗时又昂贵。
大规模图像天生模型的出现,如Stable Diffusion,重新激发了利用天生图像训练模型以实行各种卑鄙使命的兴趣,期望减轻对高质量注释的需求。有研究仅利用来自Stable Diffusion天生的图像对卑鄙分类器进行监督训练,还有的研究仅利用合成图像和提示训练自监督模型(如SimCLR)和多模态模型(如CLIP)。这些模型在卑鄙使命(如分类和分割)中可以或许与基于真实数据训练的模型相媲美或逾越,作者将只利用天生数据进行训练的这类模型称为合成克隆(synthetic clones)。
现代呆板学习模型越来越多地被应用于解决诸如自动驾驶和自动医疗辅助等现实问题。随着合成数据在训练模型中的快速进展,必须相识这些模型在现实世界中部署前的鲁棒性。关于合成克隆的最新研究尚未会合于评估这些模型的鲁棒性。然而,已知在合成或天生数据集上训练的模型会遭遇一些缺陷,例如模型崩溃,即模型忘记长尾种别或学习到与训练数据集不同的分布。
作者旨在提供一个综合基准,以评估合成克隆模型与在真实图像数据集上训练的最先辈(SOTA)基线模型的鲁棒性。将三类合成克隆模型——监督型、自监督型和多模态模型——与九个利用真实图像训练的强基线模型进行基准测试。作者评估了与形状、背景和上下文偏差相干的鲁棒性指标,还将这些模型与对抗性攻击和常见图像破坏进行基准测试。最后,作者测试了这些模型与利用真实数据训练的模型相比,在校准方面的表现,如图1所示。
为克服仅利用合成数据带来的某些缺陷,作者进行广泛的消融实验,研究合成克隆的鲁棒性如何随着以下因素而厘革:(i)与合成数据和真实数据的联合训练;(ii)合成样本数量的增长;以及(iii)在利用Stable Diffusion天生图像时提示的影响。
作者的发现可总结为:在很多鲁棒性指标(校准、背景偏差、形状偏差等)方面,利用合成数据训练的自监督和多模态模型的表现与其在真实图像上训练的模型相称。
Background: Synthetic Clones
在下面分析各种合成克隆模型之前,扼要回顾一下如何利用Diffusion模型天生合成图像,以及各种种别的模型是如何在这些合成图像上进行训练的。
- Synthetic data generation
合成克隆模型中的合成图像通常是利用大规模预训练的图像天生模型天生的,例如Stable Diffusion或Imagen。天生模型的输入是高斯噪声和条件文本提示。合成克隆可以分为三类,即监督合成模型、自监督合成模型和多模态合成模型。
- Supervised models using generated data
为了训练一个有监督的分类器,首先利用Stable Diffusion天生一幅图像,条件是提示“c, h c \text{h}_\text{c} hc inside b”。这里,c 是从数据集(例如ImageNet-1K)的全部类标签中随机采样得到的真实种别名称, h c \text{h}_\text{c} hc 是与 c 相干联的上义词(hypernym),b 表示Places365数据会合的365个种别之一。在WordNet层次布局中,c 的上义词是 c 在层次布局中的父节点。然后用天生图像的猜测标签和用于天生图像的采样真实种别标签之间交叉熵丧失( L CE \mathcal{L}_\text{CE} LCE )对分类器进行端到端训练,如图1(底部)。有研究创建了120万这样的提示,并天生相应图片来训练一个ResNet50模型。同样地,还有研究只利用类名c来天生1600万张图片,然后用天生图片和真实种别标签来训练ViT-B模型。
- Self-supervised models using generated data
合成自监督模型即SynCLR和StableRep,首先从一个概念库中随机抽样一个概念标签。这个概念库通常是利用WordNet提取的同义词集或来自Wikipedia的常见单词、双字词组和标题构建的。然后将这个抽样的概念标签输入到一个大型语言模型(LLM)中,用于天生额外的上下文信息。终极提示由概念标签和上下文信息连接而成。然后利用这个提示来天生 n n n 张图像。之后,还会应用一些在SimCLR模型中也利用的增强(Aug.)。SynCLR模型利用多正对比丧失( L Contra \mathcal{L}_\text{Contra} LContra )进行训练,如图1(左上角)。
- Multi-modal model using generated data
多模态合成CLIP模型也利用从概念库中随机抽样的概念标签。这个概念标签连同从Places365数据集的种别中随机抽样的一个随机地点标签一起输入到一个LLM中,用于天生一个标题,随后用于条件图像天生。这些图像用于利用天生的图像和用于天生图像的提示之间的对比丧失来训练CLIP模型,如图1(右上角)所示。
Robustness Analysis
Setup
将要分析的模型分为监督模型、自监督模型和多模态模型。
对于合成的监督模型,利用了来自于现有合成监督研究的ResNet50和ViT-B模型,这些模型在大约1M利用提示天生的图像上进行训练。用于创建提示的类标签是从ImageNet-1K数据集的类中抽样得到的。为清楚起见,将它们在全部实验中称为SynResNet50和SynViT-B。将这些模型与在真实ImageNet-1K数据集上训练的强监督模型进行比较,如ResNet50、ViT-B、DeiT-III、Swin变换器和Conv-NeXt,全部基线模型均来自PyTorch图像模型库。
在自监督的情况下,利用了SynCLR模型,该模型在600M合成图像上进行了训练。利用诸如DINOv2、MAE和MOCOv3(在ImageNet-1K上训练)的最先辈自监督模型作为自监督基线,全部基线模型的查抄点均来自timm库。为了公平比较,对全部模型利用具有16的块巨细的ViT-B骨干网络。对全部自监督模型进行线性探测,在这些模型的顶部训练一个单层线性分类头,利用ImageNet-1k数据集进行90个周期的训练。我们搜索了十个学习率,以找到每个模型的最佳线性分类器。
最后,对于多模态的情况,分析了来自于的合成CLIP模型,称之为SynCLIP,该模型在371M合成图像上进行了训练。将此模型与来自OpenCLIP的CLIP实现进行比较,该实现是在400M真实图像上训练的。利用ViT-B骨干网络来允许公平比较。对于CLIP和SynCLIP,我们报告了零样本结果。
Calibration
随着神经网络开始应用于像自动驾驶和医疗保健这样的安全关键使命,不仅要猜测准确,还要准确报告其猜测的置信度。校准可以帮助明白模型猜测的可靠性以及终极用户是否可以信托模型的输出。神经网络的校准通常利用期望校准偏差(ECE)来衡量。ECE衡量了模型置信度与模型准确性之间的期望绝对差异。在作者的研究中,研究了与利用真实数据训练相比,在合成图像上训练对模型校准的影响。
ECE指标的结果如图3所示,分别为在ImageNet-1k数据集上进行分布内(ID)校准(训练和测试分集来自同一数据集)的结果,以及在ImageNet-R和ImageNet-A 数据集上进行分布外(OOD)校准(训练和测试分集来自不同数据集)的结果。可以得出以下结论:
Observation 1: 合成克隆在分布内情况下大多数是校准精良的,甚至在某种程度上也适用于在ImageNet-R上的分布外。但是在ImageNet-A上,合成克隆的外部门布校准结果较差。
这可能是由于从预训练Diffusion模型(在从网络上抓取的数据上进行训练)天生的合成数据已经捕捉到了ImageNet(从网络上抓取的图像)和ImageNet-R(由丰富的卡通和素描组成,这些内容在互联网上广泛存在)数据集的分布。另一方面,ImageNet-A数据集包含了在互联网上很难找到的自然对抗示例。因此,合成克隆和基线模型在这个数据集上都表现出较差的校准结果。然而,利用真实数据集训练的模型通常对ImageNet-A的校准结果更好,可能是由于数据会合固有的噪音造成的。
- Out of distribution (OOD) detection
OOD检测对增强终极用户对模型的安全性和可靠性的信托至关紧张,因此需要评估在合成数据上训练对模型OOD检测能力的影响,确定一个模型在多大程度上可以或许区分来自训练数据分布(ID)的样本和来自另一种分布的样本。
OOD检测使命可以被表述为模型猜测概率上的二分类使命。对于权重为 θ \theta θ 的模型 F F F,如果该样本的最大猜测概率高于预界说的阈值 τ \tau τ ,即 max F θ ( x i ) ≥ τ \max F_\theta (x_i) \geq \tau maxFθ(xi)≥τ ,则将输入样本 x i x_i xi 分类为ID;如果 max F θ ( x i ) < τ \max F_\theta (x_i) < \tau maxFθ(xi)<τ ,则分类为OOD。OOD检测可以利用二分类的标准指标进行评估,例如AUROC。另外,作者还报告了在分布内样本的真正例率为95%时OOD样本的假阳性率(FPR@95)。
表1表现了全部模型在三个OOD数据集上的结果,即SUN397、Places365和iNaturalist,此中ImageNet-1K是ID数据集。可以得出以下结论:
Observation 2:在OOD检测方面,SynCLR和SynCLIP与其种别中的基准模型相媲美。即使比基准模型多16倍的数据,SynViT-B在OOD检测方面仍明显落后于用真实数据训练的监督模型。
Robustness
对抗学习旨在相识模型对于由对手操纵的例子的鲁棒性,这些例子在人眼看来好像相似,但会改变模型的猜测。作者想要探究在合成数据上训练的模型是否更容易受到对抗性攻击,利用了两种流行的白盒攻击方法,即快速梯度符号法(FGSM)和投影梯度降落(PGD)攻击。这些白盒攻击需要对手相识模型的梯度。FGSM攻击通过模型的猜测梯度相对于其输入的缩小步长 ϵ \epsilon ϵ 来扰乱输入图像,可以写成 x ^ i = x i + ϵ ∇ x i J ( θ , x i , y i ) \hat{x}_{i} = x_{i} + \epsilon \nabla_{x_{i}} J(\theta, x_{i}, y_{i}) x^i=xi+ϵ∇xiJ(θ,xi,yi) ,此中 x i x_{i} xi 表示输入图像, ∇ x i J \nabla_{x_{i}} J ∇xiJ 表示丧失函数相对于 x i x_{i} xi 的梯度, y i y_{i} yi 表示输入图像 x i x_{i} xi 的标签。PGD攻击是FGSM攻击的迭代版本,随后将对抗性输入的投影限制在围绕输入 x x x 的 ϵ \epsilon ϵ 球内。 ϵ \epsilon ϵ 值表示允许的最大扰动。作者在PGD和FGSM攻击中利用 ϵ \epsilon ϵ 值为1/255,PGD攻击的步数设置为20。
作者报告了测试会合干净和对抗性样本的准确率,将对抗鲁棒性指标 R adv R_{\text{adv}} Radv 界说为对抗性和干净样本之间相对准确率,公式为 R adv = Acc adv Acc clean R_{\text{adv}} = \frac{\text{Acc}_{\text{adv}}}{\text{Acc}_{\text{clean}}} Radv=AcccleanAccadv ,此中 Acc adv \text{Acc}_{\text{adv}} Accadv 是对抗性样本的准确率, Acc clean \text{Acc}_{\text{clean}} Accclean 是干净样本的准确率。可以得出以下结论:
Observation 3:合成克隆模型在面临对抗性示例时明显更易受攻击,尤其是监督式合成克隆模型,相比于用真实数据训练的模型。通过大量合成数据训练的自监督合成克隆模型,即SynCLR,在其相应种别中与真实图像基准模型略有可比。
作者发现MAE在全部模型(包罗合成模型和真实模型)中表现最差,这表明训练目的以及训练数据集的巨细是决定模型对抗鲁棒性的紧张因素。
- Robustness against common corruptions
接下来,评估全部模型在现实世界中常见的噪声破坏下的表现,在ImageNet-C和ImageNet-3DCC数据集上进行评估。ImageNet-C包含19种自然发生的图像破坏,如高斯噪声、爆发噪声、运动含糊、弹性变换等。比如ImageNet-3DCC包含12种常见的思量了深度因素的破坏,例如 z z z 轴含糊、远近聚焦偏差等。
由于时间和资源的限制,作者仅报告十个常见破坏使命的结果(每个数据集各五个),分别清楚样本和破坏样本的准确率以及全部破坏的均匀准确率。作者还报告均匀 R cc R_\text{cc} Rcc 指标,该指标界说为清楚样本与全部破坏均匀准确率之间的相对准确率,即 A V G . R cc = Avg. Acc cc Acc clean AVG. R_\text{cc}=\frac{\text{Avg. Acc}_\text{cc}}{\text{Acc}_{\text{clean}}} AVG.Rcc=AcccleanAvg. Acccc 。结果见表3,可以得出以下结论:
Observation 4:与用真实图像训练的基准模型相比,合成克隆在图像常见破坏方面明显不敷稳健。
全部种别的模型中,合成克隆的均匀 R cc R_\text{cc} Rcc 明显较低。真实数据会合的图像自己就存在这些常见的破坏,因此在真实数据上训练已经可以或许使得结果模型对噪声更加稳健。现在合成图像缺乏这些破坏,使得合成克隆对常见图像破坏非常敏感。
Biases
界说上下文偏差为模型倾向于利用上下文线索,例如位置来对物体进行分类,而不是现实利用物体表面。这种上下文偏差存在是由于大多数大规模数据集由从互联网上获取的未加筛选的数据组成。例如,与飞机在跑道上相比,飞机在森林中的图像几乎不可能存在。利用FOCUS(Familiar Objects in Common and Uncommon Settings)数据集来评估上下文偏差,该数据集包含大约21,000张图像。数据会合的每个图像都带有对象种别、时间、位置和睦候标签的注释。
FOCUS将数据集分成常见样本和不常见样本的子集。不常见样本在现实世界中很少见,例如“飞机在森林中”,大概在ImageNet数据会合由于用于构建的标签而罕见(例如,ImageNet中没有海上飞机的标签)。数据集被划分为互斥的分区 P k P_k Pk ,此中 k k k 是不常见属性的数量。总数据集被划分为四个分区,从 P 0 P_0 P0 (仅包含常见对象) 到 P 3 P_3 P3 (包含三个不常见属性)。
作者报告了 CB k \text{CB}_k CBk 指标(具有 k k k 个不常见属性的上下文偏差),它界说为在没有不常见属性的分区 P 0 P_0 P0 上的准确率与具有 k k k 个不常见属性的分区 P k P_k Pk 上的准确率之间的相对准确率,即 CB k = Acc P k Acc P 0 \text{CB}_k = \frac{\text{Acc}_{P_k}}{\text{Acc}_{P_0}} CBk=AccP0AccPk 。例如, CB 2 \text{CB}_2 CB2 衡量了 P 0 P_0 P0 和 P 2 P_2 P2 之间的相对准确率。结果见表4,可以得出以下结论:
Observation 5:与用真实数据训练的基准监督模型和自监督模型相比,自监督合成克隆对上下文厘革具有更强的稳健性。监督合成克隆SynViT-B的性能与在真实数据上训练的ViT-B模型相称。同时,SynCLIP对上下文厘革更为敏感,但其性能仍可与DINOv2和ConvNeXt等模型相媲美。
儿童学会根据形状辨认和构造物体,并更方向于物体形状而非颜色和纹理。已经证明,将网络方向形状可以增强其对常见失真的鲁棒性。这表明,神经网络的鲁棒性通常受益于将物体以形状而非纹理进行分类的偏好。天生自天生对抗网络(GANs)的图像通常具有高频率伪影(表明高纹理偏差)。Diffusion模型也表现出类似的模式,只管这些模式更加淡化。这些伪影与真实图像形成光显对比,真实图像中不包含这些高频率伪影。为相识是否在Stable Diffusion的合成图像上训练会使网络方向纹理,作者利用了cue conflict数据集。该数据集包含大约1200张图像,属于16个种别,此中图像的纹理和形状相互冲突。
图4展示了全部模型的分类均匀形状偏差,作者还展示了合成克隆和一些基准模型的种别形状偏差结果。可以得出以下结论:
Observation 6:合成克隆在形状偏差上往往比在纹理偏差上更为明显。特殊是,SynCLIP在形状偏差指标上优于全部模型,而SynViT-B在全部门类和自监督模型中表现最佳。SynCLR模型的性能与MOCOv3模型comparable,并在形状偏差指标上优于MAE模型。
在StyleGANv2的合成数据中也观察到了类似的结果。作者的结果表明,合成数据在形状上具有多样性,导致合成克隆模型更倾向于形状偏差,但这可能表明天生的图像缺乏纹理的多样性,使网络更依靠形状进行分类。
模型的背景偏好可以用来确定模型是否利用图像的背景而不是利用对象自己来做出分类决议。相识模型是否方向于背景是一种有效的方式,可以帮助我们相识模型是否学习了捷径而非为给定种别学习精良的特性。为了评估模型的背景偏好,利用来自IN-9L数据集的Mixed-Rand和Mixed-Same分区。Mixed-Rand数据集将图像中的前景对象进行分割,并将原始背景与不同种别标签的随机背景进行替换,而Mixed-Same分区则将分割的前景对象放置在类似种别标签的随机背景上。
表6表现了全部模型在IN-9L数据集的原始、Mixed-Rand和Mixed-Same分区上的准确率,以及BG-Gap。BG-Gap衡量了在Mixed-Rand和Mixed-Same数据集上准确率之间性能差异,并评估了通过将背景更改为与前景不同种别来操纵决议的可能性。可以得出以下结论:
Observation 7:合成克隆模型在背景偏差方面与利用真实数据训练的SOTA基线模型表现相称。
总的来说,作者发现全部模型(合成和真实)对于背景厘革都非常稳健。
Ablations
通过消融实验(包罗全部CLIP模型)分析影响合成克隆模型稳健性的三个紧张因素。
在这里,分析了提示对合成克隆模型稳健性的影响。表7表现了利用不同提示(例如:(i)种别名称,(ii)80个CLIP模板,例如“{种别名称}的高质量照片”,用于评估CLIP模型的零样本分类性能,以及(iii)种别名称与来自BLIP2天生的标题组合,例如“Tench[种别标签],一个拿着鱼的人”训练的SynViT-B合成图像模型的结果。从表6可以看出,与仅利用种别名称相比,标题和CLIP模板更得当创建稳健的合成克隆模型。这可以归因于天生了更多描述性文本的多样化图像。
- Effect of adding real data
接下来,研究在CLIP模型的稳健性上利用真实图像和合成图像数据混淆的影响。我们对CLIP模型进行了训练,利用固定的数据集巨细(例如371M张图像),此中真实和合成图像被随机选择以创建一个包含真实和合成图像的子集,然后用于训练CLIP模型。表7表现,根据建议添加真实数据可以改善很多关键指标(如ECE、对抗性准确度、形状偏差),同时在其他指标上保持可比性。别的,作者发现仅利用合成图像或合成与真实图像联合进行训练可创建比仅针对真实数据进行训练更稳健的模型。
作者评估了数据集巨细对合成克隆训练的影响。通常情况下,增长数据有助于提高SynViT-B和SynCLIP模型的稳健性。在某些情况下,增长更多数据可能会稍微降低性能,这可能是由于增长数据集巨细导致数据集多样性镌汰,以及模型过分拟合于较少多样化的数据造成的。
如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程条记】
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |