8类CNN-Transformer混合架构魔改方案盘货,附23个配套模子&代码 ...

锦通  金牌会员 | 2024-6-14 22:43:03 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 554|帖子 554|积分 1662

为进一步提高模子的性能,我们将CNN在局部特征提取方面的上风与Transformer在全局信息建模方面的上风两相结合,提出了CNN-Transformer混合架构。现在,它已经成为我们研究视觉使命、发文章离不开的模子。针对CNN+transformer组合方向的研究也成为了当下计算机视觉领域研究中的大热主题。
CNN-Transformer架构依附众所周知的上风,在视觉使命上取得了令人瞩目标效果,它不仅可以提高模子在多种计算机视觉使命中的性能,还能实现较好的延迟和精度之间的权衡。为挖掘CNN-Transformer混合架构更多的潜力,有关于它的各种变体的研究也渐渐增多。
为了方便同砚们了解CNN-Transformer的最新进展与研究思绪,我这次就和各人分享该架构常用的8种魔改方法,包含早期层融合、模块融合、基于注意力的融合等。每种方法的代表性模子以及配套的论文代码也都整理了,希望同砚们阅读后可以得到缝合模块的启发,快速涨点。
23个模子原文及开源代码需要的同砚看文末
1.早期层融合

Hybrid ViT

论文:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

用于大规模图像识别的Transformer
「简述:」Transformer架构在自然语言处理中很乐成,但在计算机视觉中的应用有限。现在,注意力机制重要与卷积神经网络结合利用。我们发现,可以直接在图像补丁序列上应用纯Transformer,它在图像分类使命上表现很好。与最先进的卷积神经网络相比,Vision Transformer(ViT)在多个基准测试中取得了出色的效果,而且训练所需的计算资源大大减少。


DETR

论文:End-to-End Object Detection with Transformers

利用Transformers进行端到端目标检测
「简述:」论文提出了一种新的目标检测方法,将目标检测看作是一个直接聚集预测问题。这种方法简化了检测流程,不需要像非最大抑制或锚点生成这样的手动计划组件。新方法的重要成分包括一个全局丧失和一个变压器编码器-解码器架构。它通过推理对象之间的关系和全局图像上下文,直接并行输出终极预测集。这个模子概念简单,不需要专门的库,在COCO数据集上的准确性和运行时性能与Faster R-CNN相当。


LeViT

论文:LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

用于更快推理的 ConvNet 服装中的视觉transformer
「简述:」论文计划了一种名为LeViT的混合神经网络架构,用于快速推理图像分类。该架构结合了卷积网络和视觉Transformer的长处,并引入了一些新的方法来提高准确性和服从。作者在差别硬件平台上进行了广泛的实验,效果表明LeViT在速度/准确性权衡方面优于现有的卷积网络和视觉Transformer。


CPVT

论文:CONDITIONAL POSITIONAL ENCODINGS FOR VISION TRANSFORMERS

视觉transformer的条件位置编码
「简述:」论文提出了一种条件位置编码方案,用于视觉transformer。与先前的位置编码差别,作者的方案是动态生成的,并根据输入令牌的局部邻域进行条件化。这使得该方案可以推广到比模子在训练过程中见过的任何序列更长的输入序列,并提高了性能。作者还利用一个简单的位置编码生成器实现了该方案,并将其定名为条件位置编码视觉transformer(CPVT)。


2.横向层融合

DPT

论文:Vision Transformers for Dense Prediction

用于密集预测的视觉transformer
「简述:」论文先容了一种名为密集视觉transformer的网络架构,它利用视觉transformer取代卷积神经网络作为密集预测使命的主干。作者将来自视觉transformer差别阶段的令牌组合成差别分辨率的图像状表示,并渐渐利用卷积解码器将它们合并为全分辨率预测。该架构在密集预测使命上表现出色,并在单目深度估计和语义分割等使命上创造了新的最高记录。


LocalViT

论文:LocalViT: Bringing Locality to Vision Transformers

将局部性引入视觉Transformer
「简述:」作者研究了如何将局部性机制引入视觉Transformer。通过在feed-forward网络中引入深度可分离卷积,增加了视觉Transformer的局部性。作者验证了局部性机制的紧张性,并乐成地将其应用于4种视觉Transformer。在ImageNet2012分类使命中,增强局部性的Transformer比基线表现更好,同时参数数量和计算量几乎没有增加。


3.次序融合

CoAtNet

论文:CoAtNet: Marrying Convolution and Attention for All Data Sizes

结合卷积和注意力处理各种数据规模
「简述:」论文先容了一种混合模子CoAtNets,它结合了卷积网络和Transformer的上风。通过简单的相对注意力和垂直堆叠卷积层和注意力层的方式,CoAtNets在ImageNet上实现了最先进的性能,同时具有更高的服从和泛化能力。


CMT

论文:CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web to Special Domain Search

缓解从网络到特定领域搜索的泛化差距
「简述:」本文先容了一种针对特定领域(如COVID)的搜索体系,利用领域自顺应预训练和少次学习技术来帮助神经排序器缓解领域差异和标签稀缺问题。该体系在TREC-COVID使命第二轮中表现最佳,旨在从与COVID-19相关的科学文献中检索有用信息。


BoTNet

论文:Bottleneck Transformers for Visual Recognition

用于视觉识别的瓶颈Transformer
「简述:」论文先容了一种名为BoTNet的骨干架构,它利用自注意力机制来处理计算机视觉使命,如图像分类、目标检测和实例分割。通过在ResNet的末了三个瓶颈块中利用全局自注意力更换空间卷积,该方法在实例分割和目标检测方面表现优异,同时减少了参数数量和延迟时间。作者还指出了如何将具有自注意力的ResNet瓶颈块视为Transformer块。


4.并行融合

Conformer

论文:Conformer: Local Features Coupling Global Representations for Visual Recognition

局部特征与全局表示相结合的视觉识别方法
「简述:」本文提出了一种名为Conformer的混合网络结构,结合了卷积操纵和自注意力机制,以增强表示学习能力。Conformer接纳并发结构,最大程度地保留局部特征和全局表示。实验表明,Conformer在ImageNet上比视觉变压器高出2.3%,在MSCOCO上比ResNet-101高出3.7%和3.6%的mAPs,分别用于目标检测和实例分割,展示了其作为通用骨干网络的巨大潜力。


Mobile-Former

论文:Mobile-Former: Bridging MobileNet and Transformer

毗连MobileNet和Transformer
「简述:」论文提出了Mobile-Former网络结构,它结合了MobileNet和Transformer的长处,中心有双向桥接。该结构利用了MobileNet在局部处理和Transformer在全局交互方面的上风,并且桥接可以实现局部和全局特征的双向融合。Mobile-Former中的Transformer包含很少的令牌(比方6个或更少),这些令牌是随机初始化的,以学习全局先验知识,从而低沉了计算成本。结合提出的轻量级交叉注意力来模拟桥接,Mobile-Former不仅计算服从高,而且具有更强的表示能力。


BossNAS

论文:BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search

利用分块自监视神经网络结构搜索探索混合CNN-Transformers
「简述:」论文提出了BossNAS无监视神经网络结构搜索方法,用于解决以前方法中由于大权重共享空间和有偏见的监视而导致的不准确架构评级问题。该方法将搜索空间分解为多个块,并利用自监视训练方案分别对每个块进行训练,然后将它们作为一个整体搜索向种群中央。在具有挑衅性的HyTra搜索空间上,该方法搜索到的模子BossNet-T在ImageNet上实现了高达82.5%的准确性,比EfficientNet高出2.4%。


5.模块融合

Early convolutions help transformers see better

早期的卷积有助于Transformer更好地观察
「简述:」本文研究了Vision transformer (ViT) 模子的优化问题,发现其对优化器的选择、超参数和训练筹划长度非常敏感。作者以为这个问题大概与ViT模子的patchify stem有关,该stem是通过将输入图像应用一个步幅为p(默以为16)的p×p卷积实现的。为了测试这种非典范计划选择是否会导致问题,作者分析了原始patchify stem和用少量堆叠的步幅为2的3×3卷积更换ViT stem的简单对应物的ViT模子的优化行为。利用卷积stem更换ViT极大地提高了优化稳固性,并提高了峰值性能(在ImageNet-1k上提高了约1-2%的top-1准确性),同时保持了flops和运行时间稳固。


Escaping the big data paradigm with compact transformers

用紧凑型Transformer摆脱大数据范式
「简述:」本文先容了一种名为Compact Transformers的小型学习方法,通过符合的大小、卷积化的分词技术,使transformers能够避免过拟合,并在小数据集上超越最先进的CNN。该方法具有机动性,模子大小可以很小,只有0.28M参数即可得到有竞争力的效果。在CIFAR-10上从零开始训练时,最佳模子可以到达98%的准确率,这是以前基于transformer的模子的数据服从的显著提高,比其他transformer小10倍以上,是ResNet50的15%大小,同时到达雷同的性能。


6.分层融合

MaxViT

论文;MAXIM: Multi-Axis MLP for Image Processing

用于图像处理的多轴MLP
「简述:」本文先容了MAXIM多轴多层感知器(MLP)架构,用于图像处理使命。该架构利用UNet形状的分层结构,并支持长范围交互。MAXIM包含两个基于MLP的构建模块:一个多轴门控MLP和一个交叉门控块。作者的实验效果表明,所提出的MAXIM模子在多个图像处理使命上实现了最先进的性能,同时需要比竞争模子更少或相当数量的参数和FLOPs。


CvT

论文:CvT: Introducing Convolutions to Vision Transformers

将卷积引入视觉Transformers
「简述:」论文先容了Convolutional vision Transformer(CvT)新架构,通过将卷积引入视觉Transformer来提高性能和服从。作者通过两个重要修改来实现这一目标:包含新卷积嵌入的Transformer层次结构和利用卷积投影的卷积Transformer块。这些更改将CNN的有利属性引入ViT架构,同时保持了Transformer的长处。作者通过实验验证了CvT,表明该方法在ImageNet-1k上实现了比其他视觉Transformer和ResNets更好的性能,同时具有更少的参数和更低的FLOPs。


Visformer

论文:Visformer: The Vision-friendly Transformer

视觉友好的Transformer
「简述:」论文先容了一种名为Visformer的新架构,该架构通过渐渐将基于Transformer的模子转换为基于卷积的模子来提高视觉识别性能。作者进行了实证研究,并在转换过程中得到了有用的信息。基于这些观察效果,作者提出了Visformer,它在ImageNet分类准确性方面优于其他模子,并且当模子复杂度较低或训练集较小时,上风更加显著。


ViTAE

论文:ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

通过探索内在归纳偏差提高视觉Transformer性能
「简述:」本文先容了ViTAE架构,该架构通过从卷积中探索内在归纳偏差来提高视觉Transformer的性能。ViTAE具有多个空间金字塔缩减模块,能够低沉输入图像的尺寸并将其嵌入到具有丰富多尺度上下文的令牌中,从而得到内在尺度稳固性IB。此外,在每个Transformer层中,ViTAE还具有并行的卷积块,其特征被融合并输入到前馈网络中,以得到内在局部性IB。实验证实,ViTAE在ImageNet和卑鄙使命上优于基线Transformer和并发工作。


ConTNet

论文:ConTNet: Why not use convolution and transformer at the same time?

为什么差别时利用卷积和Transformer?
「简述:」本文先容了ConTNet架构,将Transformer与ConvNet结合起来,以提供更大的感受野。ConTNet可以像普通的ConvNets一样进行优化,并保持出色的鲁棒性。作者展示了ConTNet在图像分类和卑鄙使命上的优越性和有用性。ConTNet还作为Faster-RCNN和Mask-RCNN的骨干网络,在COCO2017数据集上分别比ResNet50高出2.6%和3.2%。


7.基于注意力的融合

EA-AA-ResNet

论文:Evolving Attention with Residual Convolutions

利用残差卷积来发展注意力
「简述:」作者提出了一种基于进化注意力的新颖通用机制,以提高transformer的性能。一方面,差别层的注意力图共享共同知识,因此前面的层的注意力可以通过残差毗连引导后续层的注意力。另一方面,低级和高级注意力在抽象水平上有所差别,因此作者接纳卷积层来模拟注意力图的演化过程。所提出的进化注意力机制在多种使命上取得了显著的性能提升,包括图像分类、自然语言理解和机器翻译。


ResT

论文:ResT: An Efficient Transformer for Visual Recognition

用于视觉识别的高效Transformer
「简述:」论文先容了一种名为ResT的高效多尺度视觉Transformer,可作为通用的图像识别主干。与现有的Transformer方法相比,ResT具有一些上风,如内存高效的多头自注意力机制、机动的位置编码和重叠卷积操纵的补丁嵌入等。实验效果表明,所提出的ResT可以大幅超越近来最先进的主干网络。


CeiT

论文: Incorporating Convolution Designs into Visual Transformers

将卷积计划融入视觉Transformers
「简述:」论文提出了CeiT架构,将CNN和Transformer结合起来,以提取低层次特征、加强局部性和建立长范围依赖关系。实验效果表明,CeiT具有更好的效果和泛化能力,无需大量训练数据和额外的CNN教师。此外,CeiT模子还表现出更好的收敛性,可以显著低沉训练成本。


8.通道增强融合

CB-HVTNet

论文:CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images

用于构造病理图像中淋巴细胞评估的信道增强混合视觉变更网络
「简述:」论文提出了一种名为CB-HVT的混合视觉变更器网络,用于构造病理学图像中淋巴细胞的评估。该网络利用迁移学习生成增强通道,并同时利用变更器和CNN来分析淋巴细胞。CB-HVT由五个模块构成,可以有用地识别淋巴细胞。在两个公开可用的数据集上进行的实验效果表明,CB-HVT具有精良的泛化能力,可以成为病理学家的有代价的工具。


关注下方《学姐带你玩AI》
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

锦通

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表