IT评测·应用市场-qidao123.com
标题:
VIT论文阅读与明白
[打印本页]
作者:
罪恶克星
时间:
2025-1-21 01:20
标题:
VIT论文阅读与明白
transform网络结构
vision transform网络结构
图1:模子概述。我们将图像分割成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将效果向量序列馈送到标准Transformer编码器。为了执行分类,我们利用标准方法向序列中添加一个额外的可学习的“分类令牌”。
补丁天生与嵌入向量
这段代码的功能是从一个图像张量中提取固定大小的 patch,并将这些 patch 转换为特定的排列形式。下面逐步说明这段代码的操作:
vision transform实验
我们评估了
ResNet、Vision Transformer (ViT)和hybrid的表示学习能力
。为了了解每个模子的数据需求,我们在差异大小的数据集上进行预训练,并评估许多基准使命。当思量到预训练模子的盘算本钱时,ViT体现非常好,以较低的预训练本钱在大多数识别基准上达到最先辈的水平。最后,我们利用自我监督进行了一个小实验,并表明自我监督的ViT在未来是有希望的。
设置
数据集。
为了探索模子的可扩展性,我们利用了具有1k个类和1.3M张图像的ILSVRC-2012 ImageNet数据集(我们在下文中将其称为ImageNet),具有21k个类和14M张图像(Deng等人,2009)的超集ImageNet-21k,以及具有18k个类和303M张高分辨率图像的JFT(Sun等人,2017)。我们根据Kolesnikov等人(2020)的研究,
将预训练数据集与卑鄙使命的测试集进行去重
。我们将在这些数据集上训练的模子转移到几个基准使命中:原始验证标签和清理后的ReaL标签上的ImageNet(Beyer等人,2020)、CIFAR-10/100(Krizhevsky,2009)、Oxford IIIT Pets(Parkhi等人,2012)和Oxford Flowers-102(Nilsback&Zisserman,2008)。对于这些数据集,预处理依照Kolesnikov等人(2020)的研究。
我们还对19个使命的VTAB分类套件进行了评估(Zhai等人,2019b)。VTAB利用每个使命1000个训练示例来评估向差异使命的低数据传输。使命分为三组:自然使命、宠物使命、CIFAR使命等。专业——医学和卫星图像,以及结构化——需要多少明白的使命,如定位。
模子变体
我们将ViT配置基于用于BERT的配置(Devlin等人,2019),如表1所示。“Base”和“Large”模子直接采用BERT,我们添加了更大的“Huge”模子。在下文中,我们利用简短的符号来表示模子大小和输入补丁大小:比方,ViT-L/16表示输入补丁大小为16×16的“大”变体。请留意,Transformer的序列长度与补丁大小的平方成反比,因此补丁大小较小的模子在盘算上更昂贵
对于基线CNN,我们利用ResNet(He等人,2016),但用组归一化(Wu&He,2018)替换批归一化层(Ioffe&Szegedy,2015),并利用标准化卷积(Qiao等人,2019)。这些修改改善了传输(Kolesnikov等人,2020),我们将修改后的模子称为“ResNet(BiT)”。对于混合体,我们将中心特征图输入ViT,补丁大小为一个“像素”。为了尝试差异的序列长度,我们要么(i)取通例ResNet50的第4阶段的输出,要么(ii)删除第4阶段,在第3阶段放置相同数量的层(保持总层数),然后取这个扩展的第3阶段的输出。选项(ii)导致序列长度增加4倍,ViT模子更昂贵
训练和微调。我们利用Adam(Kingma&Ba,2015)训练所有模子,包括ResNets,其中β1=0:9,β2=0:999,批量大小为4096,并应用0.1的高权重衰减,我们发现这对所有模子的转移都很有用(附录D.1体现,与常见做法相比,Adam在我们的环境中对ResNets的效果略好于SGD)。我们利用线性学习率预热和衰减,详见附录B.1。为了进行微调,我们利用动量SGD,批量大小为512,实用于所有型号,请参阅附录B.1.1。对于表2中的ImageNet效果,我们以更高的分辨率进行了微调:ViT-L/16为512,ViT-H/14为518,还利用了Polyak和Juditsky(1992)的匀称值,系数为0:9999(Ramachandran等人,2019;Wang等人,2020b)。
微调正确率(Fine-tuning accuracy): 微调指的是在已经训练好的模子底子上,进一步在目的数据集上训练,以调解模子参数。这种方法通常需要较长的训练时间,但它能通过调解模子参数顺应特定使命,从而提升正确性。
少量示例学习正确率(Few-shot accuracy): 在少量示例学习中,模子通常只用少数样本(少量数据)来进行学习,而不进行完全的微调。在这里,作者采用的是一种正则化的最小二乘回归题目来优化模子体现。这种方法通过冻结模子的特征表示,仅通过少量数据来找到与目的向量的映射关系,通常盘算服从较高。
目的:
微调:通常提供更好的正确性,但代价较高,需要更多的盘算资源和时间。
少量示例学习:用来快速评估模子的体现,特别是在微调过于昂贵或耗时的环境下。通过线性回归的方式,可以在较短时间内获得一个近似的效果。
与最新技术的比较
我们首先将我们最大的型号ViT-H/14和ViT-L/16与文献中最先辈的CNN进行比较。
第一个比较点是大迁移(BiT)
(Kolesnikov等人,2020),它利用大ResNets进行监督迁移学习。
第二个是Noisy Student(Xie等人,2020),它是一个大型的EfficientNet,在ImageNet和JFT300M上利用半监督学习进行训练,并去除标签
。目前,Noisy Student是ImageNet和BiT-L上其他数据集的最新技术。所有模子都是在TPUv3硬件上训练的,我们报告了预训练每个模子所需的TPUv3核心天数,即用于训练的TPU v3核心数量(每个芯片2个)乘以训练时间(以天为单元)
表2体现告终果。在JFT-300M上预训练的较小ViT-L/16模子在所有使命上都优于BiT-L(在同一数据集上预训练),同时训练所需的盘算资源要少得多。更大的型号ViT-H/14进一步提高了性能,特别是在更具挑衅性的数据集上——ImageNet、CIFAR-100和VTAB套件。有趣的是,该模子的预训练盘算量仍然比现有技术少得多。然而,我们留意到,预训练服从不但大概受到架构选择的影响,还大概受到其他参数的影响,如训练计划、优化器、权重衰减等。我们在第4.4节中提供了差异架构的性能与盘算的对照研究。最后,在公共ImageNet-21k数据集上预训练的ViT-L/16模子在大多数数据集上也体现良好,同时预训练所需的资源更少:它可以在大约30天内利用具有8个核心的标准云TPUv3进行训练。
检查视觉变换器(Vision Transformer)
为了明白视觉变换器怎样处理图像数据,我们分析其内部表示。视觉变换器的第一层将展平的图像块投影到一个低维空间(公式1)。图7(左)展示了学习到的嵌入滤波器的重要身分,这些身分类似于图像块中细致结构的低维表示的合理基函数。
ViT-L/32 RGB值的初始线性嵌入滤波器。
在投影之后,学习到的位置嵌入被添加到图像块表示中。图7(中)体现了模子学习怎样根据位置嵌入之间的相似性来编码图像内的距离。即,较近的块通常会有相似的位置嵌入。进一步地,行列结构出现:同一行/列中的块具有相似的嵌入。最后,对于较大的网格,正弦结构有时会显现(附录D)。位置嵌入学习表示2D图像拓扑,表明了为何手工计划的2D感知嵌入变体未能带来改进(附录D.4)。
自留意力使得ViT可以或许在最低层集成整个图像的信息。我们研究了网络在多大程度上利用了这一能力。详细来说,我们盘算了信息在图像空间中的匀称距离(图7,右)。这一“留意力距离”类似于CNN中的感受野大小。我们发现,一些留意力头会关注已经图像的绝大部门,表明模子确实具备整合全局信息的能力。其他留意力头则集中于低层中的信息,这种高度局部化的留意力在应用ResNet混合模子之前的Transformer中更为显着(图7,右),这表明它大概在早期卷积层中具有类似的功能。进一步地,模子在图像地区的关注体现出与图像分类相关的地区(图6)
局部与全局信息的整合: 差异的留意力头会分别处理图像的局部细节和全局信息,部门头部关注整个图像,其他头部则集中在更小的地区上。这表明ViT模子可以或许有用地在图像的差异地区内进行信息整合
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4