qidao123.com技术社区-IT企服评测·应用市场

标题: TCFormer：通过标记聚类Transformer实现视觉辨认 [打印本页]

作者: 曹旭辉 时间: 2024-8-14 06:31
标题: TCFormer：通过标记聚类Transformer实现视觉辨认
摘要
Transformer在盘算机视觉领域得到了广泛应用，并取得了明显成功。大多数最先进的方法将图像分割成规则网格，并用视觉标记表示每个网格区域。然而，固定的标记分布忽略了差别图像区域的语义含义，导致性能次优。为了办理这个问题，我们提出了标记聚类Transformer（TCFormer），它基于语义含义生成动态视觉标记。我们的动态标记具有两个关键特性：（1）使用雷同的视觉标记表示具有相似语义含义的图像区域，纵然这些区域不相邻；（2）专注于具有有代价细节的区域，并使用精细的标记来表示它们。我们通过在包罗图像分类、人体姿态估计、语义分割和对象检测在内的各种应用上举行广泛实验，证实了TCFormer的有效性。本工作的代码和模型可在https://github.com/zengwang430521/TCFormer上得到。
索引术语：视觉Transformer，动态标记，图像分类，人体姿态估计，语义分割，对象检测
1 弁言

视觉Transformer在各种任务中均取得了最先进的性能，包罗图像分类[1,2,3,4]、目的检测[6,6,7,8]、语义分割[9,10,11,12]、姿态估计[13,14,15]等。视觉Transformer在图像块之间具有长距离留意力的能力，使其能够更有效地建模图像区域之间的关系，从而相对于传统的卷积神经网络能够得到更鲁棒的表示。
视觉Transformer将图像视为特征向量的序列，这些特征向量被称为视觉标记，每个标记代表图像的一个特定区域。然后，这些标记通过Transformer块举行处理。只管对视觉Transformer的架构[1,16,8]、块结构[4]和留意力机制[16,8,17]举行了广泛的研究，但视觉标记的生成仍然是一个有待深入探索的领域。迄今为止，大多数先前的研究都依赖于基于网格的视觉标记。如图1所示，等距视觉Transformer[1,2]使用固定网格对图像举行划分，并将每个网格块视为一个视觉标记。这种计划简单且高效，但缺乏在差别尺度上考虑图像特征的能力。为了办理这个问题，具有金字塔架构的视觉Transformer[4,8,16,18]在差别阶段采用差别网格分辨率。虽然基于网格的标记生成在广泛的任务中取得了令人印象深刻的结果，但它忽略了图像的语义含义，并将所有区域视为等同，从而导致次优结果。
为了应对这一挑衅，我们引入了一种新颖的视觉Transformer——标记聚类Transformer（TCFormer），它根据图像的语义含义动态生成视觉标记。TCFormer采用了广泛使用的金字塔架构。如图1©所示，我们从高分辨率特征图开始，并将特征图中的每个像素视为一个视觉标记。随后，我们通过标记特征聚类逐步归并这些标记，以生成后续阶段的动态标记。为了避免过大的复杂度，我们在早期阶段举行局部聚类，并在最终阶段实行全局聚类。与之前的分层视觉Transformer差别，TCFormer在下采样过程中根据标记特征的相似性对标记举行整合，而不是根据它们的空间位置。
我们的动态标记具有三个关键优势。首先，它们与图像中的对象更好地对齐，从而加强了对象关系的学习。其次，通过将更多的标记分配给有代价的图像区域，我们的动态标记可以专注于紧张区域并学习图像的更全面表示。末了，动态标记可以通过使用精细标记来表示图像细节来更有效地捕获具体信息。
先前的研究[18,19,6]已经证实了在各种任务中多尺度特征聚合的优势。对于传统的基于网格的视觉标记，先前的工作[20,8]首先将它们转换为特征图，并使用卷积神经网络举行特征聚合。然而，将我们的动态标记转换为特征图并非易事。如果转换为低分辨率特征图，则会丢失动态标记中的具体信息；而如果转换为高分辨率特征图，则会导致盘算负担过重。
为了办理这个问题，我们基于Transformer提出了一个多阶段标记聚合（MTA）模块。MTA模块将上一阶段的标记视为初始标记，并渐渐聚合来自前一阶段的特征。在每一步中，MTA模块对上采样的视觉标记举行处理，并将其与前一阶段的标记特征归并。末了，将每一步的视觉标记组合起来，创建一个特征金字塔以供后续处理。为了充分使用我们动态标记的优势，我们提出了一个新的Transformer块，该块使用聚类结果来指导留意力过程。我们将这个新的Transformer块集成到MTA模块中，形成了新颖的聚类缩减MTA（CR-MTA）模块。CR-MTA模块以视觉标记的形式实现标记特征聚合，在保持具体信息的同时，保持可接受的复杂度水平。
本工作的主要贡献可以概括如下：

我们引入了一种新颖的视觉Transformer，名为TCFormer，它采用标记特征聚类来生成动态视觉标记。
我们提出了一个局部CTM模块，该模块通过在早期阶段对标记举行局部聚类，减轻了标记聚类的过重负担。
我们提出了一种基于Transformer的多尺度特征聚合模块，称为MTA，该模块以视觉标记的形式有效且高效地融合多尺度特征。
我们通过引入一个新的Transformer块来进一步改进MTA模块，该块使用聚类结果来指导留意力过程，从而形成了CR-MTA模块。
在包罗图像分类、人体姿态估计、语义分割和对象检测在内的各种盘算机视觉任务上举行了广泛的实验，结果表明我们提出的TCFormer优于其他同类方法。

这项工作在初步版本[15]的基础上举行了以下加强：1) 我们提出了一种局部标记聚类方法，该方法在不捐躯性能的环境下明显低落了盘算资本。局部聚类方法使我们的TCFormer能够更高效地处理高分辨率图像。2) 我们提出了CRMTA，通过使用聚类结果来指导留意力过程，从而改进了原始的MTA模块。这一加强充分使用了我们动态视觉标记的优势，并改进了对象关系的学习。3) 我们将TCFormer扩展到更多任务中，如对象检测和语义分割，以证实我们TCFormer的通用性。
图2：我们的标记聚类Transformer（TCFormer）的架构。TCFormer采用广泛使用的金字塔结构，由四个阶段构成。初始阶段的视觉标记是从高分辨率特征图中的像素生成的。在连续阶段之间，基于聚类的标记归并（CTM）模块归并视觉标记，以为后续阶段创建动态标记。多阶段标记聚合（MTA）模块以标记格式集成多尺度标记特征，并输出一个标记金字塔以供进一步处理。
2 相关工作
2.1 视觉Transformer
受Transformer在天然语言处理中取得成功的启发[22-24]，Transformer已被扩展到盘算机视觉领域，并在广泛的任务中取得了最先进的成果[1, 7, 10, 18, 8]。大多数最先进的视觉Transformer将图像划分为基于网格的块，并将每个块表示为视觉标记。然后，视觉标记序列通过多个堆叠的Transformer块举行处理。根据视觉标记的尺度，视觉Transformer可以分为两类。
第一类采用等距结构，并在整个过程中使用具有同一尺度的视觉标记。ViT[1]将等距视觉Transformer应用于图像分类，通过处理视觉标记以及一个分类标记来预测分类得分。DeiT[2]进一步基于分类标记引入了蒸馏方法。MAE[21]通过重建随机掩码的图像块，将ViT扩展为自监督学习者。ViTPose[14]使用ViT结构举行姿态估计，并取得了最先进的性能。
第二类采用金字塔结构并生成多尺度的视觉标记。第二类也采用金字塔结构并生成多尺度的视觉标记。CVT[4]通过将卷积层融入Transformer块中，构建多尺度的视觉标记，从而扩展了ViT。PVT[20]引入了一种具有金字塔结构的视觉Transformer，用于麋集预测，它在早期阶段采用高分辨率网格划分，并在每个阶段后低落网格分辨率。Swin[8]具有与PVT相似的结构，但在其Transformer块中采用了基于移动窗口的留意力机制。PVT和Swin在各种任务中都取得了出色的成绩，如对象检测[7,16]和语义分割[10,26]。
我们的TCFormer属于第二类，并生成多尺度的视觉标记。与通例模型差别，TCFormer中的视觉标记不受固定网格结构的限制。相反，TCFormer通过标记特征聚类生成具有可顺应外形和巨细的动态标记，这反映了图像的语义含义并专注于紧张区域。TCFormer还通过精细标记捕捉图像细节。动态视觉标记有助于学习对象关系并捕获具体信息。
2.2 动态视觉标记
基于固定网格的视觉标记忽略了图像的语义含义，并将所有区域视为等同，这不是最优的。为了办理这个问题，动态视觉标记越来越受到关注。生成动态视觉标记的关键在于区分信息丰富和信息贫乏的图像区域，并专注于信息丰富的区域。
标记剪枝是一种常用的生成动态标记的技术，它通过消除无信息的标记来低落盘算复杂度。DynamicViT[22]和AdaViT[17]为每个视觉标记预测分数，并仅保留分数高的信息丰富的标记。PnP-DETR[23]也根据预测的分数选择信息丰富的标记。然而，分数低的标记由粗略的特征向量表示。Evo-ViT[24]根据分类标记的留意力权重区分信息丰富的标记，并用单个代表性标记表示无信息的标记。
标记剪枝方法旨在减少配景图像区域的盘算资本，而其他方法则旨在加强图像特征的学习。DVT[25]根据输入图像的分类难度确定标记的分辨率，从而使更精细的标记能够表示复杂的图像。PS-ViT[26]渐渐调整图像块的中央，以使视觉标记会集在信息丰富的区域，并改善图像特征。
与先前的方法相比，我们TCFormer中的动态标记生成更加灵活。先前的方法仍然范围于基于网格的标记，其中标记剪枝调整网格块的数量，DVT调整网格尺度，而PS-ViT调整网格块中央。相反，我们的TCFormer不受基于网格的图像块的限制，并且在标记的外形和巨细上都具有顺应性。首先，TCFormer生成具有灵活外形的标记。我们的动态视觉标记根据语义含义对图像举行划分，并且不受空间关系的限制，允许甚至非相邻区域由单个标记表示。这种标记外形的灵活性加强了与图像中对象的对齐，改善了对象关系的学习。其次，TCFormer动态调整标记密度，为信息丰富的区域分配更多标记，以学习更具代表性的图像特征。第三，TCFormer为差别区域使用差别尺度的标记，能够通过精细标记表示图像细节来捕获具体信息。
最近，也出现了基于聚类的动态标记生成方法。[27]通过渐渐归并最相似的标记对来生成动态标记，而[28]则提出使用迭代局部聚类举行标记归并。这些工作与我们的TCFormer有雷同的理念，即图像区域应根据语义含义而不是空间位置举行划分。虽然[27]和[28]都旨在通过减少标记数量来低落盘算复杂度，但相比之下，我们的目的是通过动态标记来加强图像特征。
3 标记聚类Transformer
Token Clustering Transformer（TCFormer）的总体架构如图2所示。TCFormer采用流行的金字塔结构，由四个阶段构成。每个阶段由几个堆叠的Transformer块构成。在相邻阶段之间交错部署了一个基于聚类的标记归并（CTM）模块，以动态归并标记，并使每个阶段能够处理差别尺度的标记。第一阶段的视觉标记从高分辨率特征图初始化，特征图中的每个像素都被视为一个标记。在最终阶段之后，一个多阶段标记聚合（MTA）模块以视觉标记的形式集成多尺度特征，并输出一个图像特征金字塔，用于特定任务的处理。我们将在第3.1节中介绍初步版本（TCFormerV1），并在第3.2节中介绍新版本（TCFormerV2）。
3.1 TCFormerV1
3.1.1 Transformer块
图3展示了TCFormerV1中Transformer块的结构。由于视觉Transformer中通常存在大量标记，传统Transformer块中的全局留意力处理会导致不可接受的盘算资本。为了办理这个问题，我们在留意力处理之前引入了一个标记减少层，以减少标记的数量。如图3(b)所示，空间标记减少（SR）层将视觉标记转换为特征图，然后使用卷积层低落特征图的分辨率。下采样的特征图随后被展平以形成键和值标记，从而减少标记的数量。在留意力处理之后，我们联合了一个深度卷积层来捕获局部信息，这在先前的工作如[4, 29, 13]中已被证实是有益的。
3.1.2 基于聚类的标记归并（CTM）模块
如图4所示，我们TCFormer中的基于聚类的标记归并（CTM）模块包罗一个标记聚类和归并过程。给定前一阶段的视觉标记，CTM模块首先通过对标记特征应用聚类算法将标记分组为聚类，然后将同一聚类内的标记归并以生成后续阶段的新视觉标记。
标记聚类。对于标记聚类过程，我们使用了基于k最近邻（DPC-kNN）的密度峰值聚类算法的一个变体[30]，因为它简单且易于并行化。给定一组视觉标记                                  X                            X                X，我们首先盘算每个标记与其他标记之间的距离。然后，我们根据标记与其k最近邻之间的距离来估计局部密度                                  ρ                            \rho                ρ：
                                          ρ                         i                               =                      exp                      ⁡                                  (                         −                                     1                            k                                              ∑                                                       x                                  j                                           ∈                               kNN                               ⁡                                              (                                                 x                                     i                                                 )                                                                                  ∥                                              x                                  i                                           −                                              x                                  j                                           ∥                                        2                            2                                     )                                     \rho_{i}=\exp \left(-\frac{1}{k} \sum_{x_{j} \in \operatorname{kNN}\left(x_{i}\right)}\left\|x_{i}-x_{j}\right\|_{2}^{2}\right)                ρi=exp(−k1∑xj∈kNN(xi)∥xi−xj∥22)
其中，                                  kNN                      ⁡                                  (                                     x                            i                                     )                                     \operatorname{kNN}\left(x_{i}\right)                kNN(xi)表示标记                                  i                            i                i的k最近邻。                                           x                         i                                     x_{i}                xi和                                           x                         j                                     x_{j}                xj是它们对应的标记特征。
然后，对于每个标记，我们收集它与局部密度较高的标记之间的距离，并使用最小距离作为距离指标。距离指标较大的标记往往是局部密度峰值，并被以为是聚类中央的合适候选者。对于局部密度最高的标记，我们将其与其他标记之间的最大距离设置为其距离指标，以确保它具有最大的距离指标。
                                          δ                         i                               =                                  {                                                                                                                            min                                              ⁡                                                                            j                                              :                                                                ρ                                                 j                                                                >                                                                ρ                                                 i                                                                                                                         ∥                                                                x                                                 i                                                                −                                                                x                                                 j                                                                ∥                                                             2                                                       ,                                        如果存在                                          j                                        使得                                                            ρ                                           j                                                       >                                                          ρ                                           i                                                                                                                                                                                     max                                              ⁡                                                             j                                                                                        ∥                                                                x                                                 i                                                                −                                                                x                                                 j                                                                ∥                                                             2                                                       ,                                        否则                                                                                                   \delta_{i}=\left\{\begin{array}{l} \min _{j: \rho_{j}>\rho_{i}}\left\|x_{i}-x_{j}\right\|_{2}, \text { 如果存在 } j \text { 使得 } \rho_{j}>\rho_{i} \\ \max _{j}\left\|x_{i}-x_{j}\right\|_{2}, \text { 否则 } \end{array}\right.                δi={minj:ρj>ρi∥xi−xj∥2, 如果存在 j 使得 ρj>ρimaxj∥xi−xj∥2, 否则
其中，                                           δ                         i                                     \delta_{i}                δi表示距离指标，                                           ρ                         i                                     \rho_{i}                ρi表示局部密度。
末了，我们通过将每个标记的局部密度与其距离指标相乘来确定其得分，即                                           ρ                         i                               ×                                  δ                         i                                     \rho_{i} \times \delta_{i}                ρi×δi。得分较高的标记更有大概成为聚类中央。然后，选择得分最高的标记作为聚类中央，并将别的标记分配给最近的中央。
标记归并。标记归并过程旨在为每个聚类生成一个代表性的标记。一个简单的方法是直接盘算聚类内标记特征的平均值。然而，这忽略了每个标记的差别紧张性。受先前工作[22, 17, 23]的启发，我们根据标记的特征预测其紧张性得分                                  P                            P                P，以反映其紧张性，并使用预测的紧张性得分来指导标记特征的平均盘算：
                                          y                         i                               =                                                       ∑                                              j                                  ∈                                                 C                                     i                                                                            e                                              p                                  j                                                                x                               j                                                                      ∑                                              j                                  ∈                                                 C                                     i                                                                            e                                              p                                  j                                                                      y_{i}=\frac{\sum_{j \in C_{i}} e^{p_{j}} x_{j}}{\sum_{j \in C_{i}} e^{p_{j}}}                yi=∑j∈Ciepj∑j∈Ciepjxj
其中，                                           C                         i                                     C_{i}                Ci表示第                                  i                            i                i个聚类的聚集，                                           x                         j                                     x_{j}                xj和                                           p                         j                                     p_{j}                pj分别是原始标记特征和对应的紧张性得分。                                           y                         i                                     y_{i}                yi是归并后标记的特征。
如图4所示，原始标记和归并后的标记被输入到后续的Transformer块中，其中归并后的标记作为查询（queries），原始标记作为键（keys）和值（values）。Transformer块旨在将特征从原始标记转移到归并后的标记上，同时将紧张性得分                                  P                            P                P融入留意力机制中以引导特征转移过程。
                                 Attention                        (                      Q                      ,                      K                      ,                      V                      )                      =                      softmax                      ⁡                                  (                                                 Q                                              K                                  T                                                                d                               k                                              +                         P                         )                               V                            \text {Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{d_{k}}+P\right) V                Attention (Q,K,V)=softmax(dkQKT+P)V
其中，                                           d                         k                                     d_{k}                dk是查询的通道维度。为了清晰起见，我们省略了多头设置和空间降维层。通过将标记紧张性得分融入特征平均和留意力过程，我们确保了对输出动态标记有更大影响的关键视觉标记。
3.1.3 多阶段标记聚合（MTA）模块

多尺度特征的融合已被证实对各种任务有益[18, 19, 6]。先前的视觉Transformer[20, \underline{8}, \underline{13}]将视觉标记转换为特征图，并使用传统的卷积神经网络聚合多尺度特征。
然而，基于CNN的特征聚合模块不适用于我们的动态视觉标记。如图\underline{5}所示，TCFormer生成的视觉标记没有网格结构，并将精细的标记分配给包罗复杂细节的图像区域。将我们的动态标记转换为低分辨率特征图（如先前工作[18, 19, 6]所做的那样）会导致细节丢失。相反，将标记转换为高分辨率特征图虽然保留了细节，但会产生不可接受的复杂性和内存开销。为了缓解这个问题，我们提出了一种新的基于Transformer的多阶段标记聚合（MTA）模块。
遵照流行的FPN[19]，我们的MTA模块逐步从更深阶段向更浅阶段聚合特征。我们首先对动态视觉标记举行上采样处理。如图\underline{6}(\mathrm{a})所示，在CTM模块中，我们将标记分组为多个聚类，并将每个聚类内的标记归并为一个单一标记。聚类结果被记录下来，用于标记上采样过程，其中归并标记的特征会根据记录的聚类结果复制到相应的上采样标记上。
通过标记上采样过程，我们可以系统地按阶段聚合特征。我们没有将视觉标记转换为特征图，而是引入了一个基于Transformer的多阶段标记聚合（MTA）模块，该模块旨在以标记格式聚合特征。如图\underline{6}(b)所示，最终阶段的视觉标记作为初始标记。在每一步中，MTA模块首先对标记举行上采样，确保上采样后的标记与前一阶段的标记具有雷同的分布。随后，MTA模块将前一阶段的标记特征集成到上采样后的标记中，并将结果输入到Transformer块中。这个迭代过程持续举行，直到有效聚合了所有阶段的特征。最终，每一步的标记都被转换为金字塔特征图以供后续处理。
与将视觉标记转换为特征图的FPN差别，我们的MTA模块以标记格式聚合特征。这种方法在每个阶段都保留了细节，同时避免了处理高分辨率特征图，从而在性能和效率之间实现了和谐均衡。
3.2 TCFormerV2

TCFormerV1产生了灵活的动态标记，并在以人为中央的任务中取得了令人印象深刻的结果[15]。然而，原始的CTM模块在处理高分辨率输入图像时存在明显的复杂性。因此，我们通过引入一个新的局部CTM模块（第3.2.1节）来进一步加强TCFormerV1。为了充分发掘动态标记的潜力，我们进一步提出了一个基于聚类减少的多阶段标记聚合（CR-MTA）模块（第3.2.2节）。
3.2.1 局部CTM

如第3.1.2节所述，原始CTM模块中使用的DPC-kNN算法[30]涉及盘算每对标记之间的距离。这个过程产生的内存资本和盘算复杂度与标记数量的平方成正比。因此，对于高分辨率的输入图像，早期阶段的原始CTM模块会导致不可接受的复杂度和内存使用量。
如图8所示，CTM模块在差别阶段表现出差别的结果。在早期阶段，它倾向于将视觉标记与其附近的标记归并，并将动态标记与物体边沿（如树枝和热气球）对齐。在深层阶段，CTM模块基于高级语义含义归并远处的标记，比方墙壁和天空区域。使用CTM模块的这一特性，我们引入了一个名为局部CTM模块的新模块，该模块在不捐躯性能的环境下低落了复杂度。为了参考，在后续部门中，原始CTM模块被称为全局CTM模块。
如图\mathbf{7}所示，局部CTM模块在早期阶段将动态标记分为多个部门，并对每个部门单独举行标记聚类过程。这种方法允许输出标记与物体边沿对齐，同时只需要盘算相邻标记对之间的距离。假设我们将输入标记分为                                  P                            P                P部门，输入标记的数量为                                  N                            N                N，特征通道维度为                                  C                            C                C，则全局聚类方法的盘算复杂度为                                           N                         2                               C                            N^{2}C                N2C，而局部聚类方法的复杂度为                                           N                         2                               C                      /                      P                            N^{2}C/P                N2C/P。与前者相比，后者的复杂度低落了                                  P                            P                P倍。
随着我们向更深的阶段推进，我们减少了局部CTM模块中使用的部门数量，以便于归并更远的标记。在最终阶段，我们将部门数量减少到1，并在该模块中实行原始的全局标记聚类。部门数量的渐渐减少使得在空间上相距较远但在语义上相似的图像区域可以由雷同的标记来表示。我们将局部CTM模块集成到我们的TCFormerV2中。具体来说，我们在前两个局部CTM模块中分别使用了16和4个部门，在末了一个局部CTM模块中使用了1个部门。
在图8中，我们对比了全局CTM模块和局部CTM模块生成的动态标记。在早期阶段，纵然部门数量相对较大，局部CTM模块也能生成与物体边沿对齐精良的动态标记。在深层阶段，我们局部CTM模块中的小部门数量能够实现长距离标记归并，生成与语义含义对齐精良的动态标记。总之，我们的局部CTM模块生成的标记分布与全局CTM模块相似，但复杂度明显低落。
3.2.2 基于聚类减少的MTA

如第3.1.3节所述，MTA模块采用Transformer块举行特征聚合，确保在我们动态标记内有效且高效地保留具体信息。然而，原始MTA模块中使用的普通Transformer块未能充分使用我们动态标记的优势，并需要进一步改进。
如第3.1.1节所述，我们的Transformer块在留意力过程之前包罗一个空间标记减少（SR）层，以减少盘算复杂度。虽然SR层简单且有效，但它破坏了视觉标记与图像中物体之间的对齐。具体来说，如图10(b)所示，我们的动态标记与输入图像中的物体对齐精良。这种对齐促进了对视觉标记更清晰的语义明白，并简化了物体关系的学习。然而，如图\underline{9}(d)所示，SR层的输出标记保持固定的基于网格的分布，从而导致对齐丢失。
CR Transformer块。为了办理这个问题，我们引入了一种专门为MTA模块定制的新型Transformer块。我们的提议以一个聚类标记减少（CR）层开始。如图\underline{9}(b)所示，CR层通过根据先前CTM模块生成的标记聚类结果归并它们来减少标记数量。CR层的输出与最终阶段的动态标记具有雷同的分布，从而保持了标记与图像中物体之间的对齐。通过重用CTM模块的聚类结果，CR层不会增长额外的盘算负担，并且比SR层更高效。如图9(a)所示，我们通过将普通Transformer块中的SR层更换为新的CR层来构建新的CR Transformer块。
CR-MTA模块。我们通过将普通的SR Transformer块更换为CR Transformer块来引入新的CR-MTA模块，并将CR-MTA模块集成到TCFormerV2中。由于CR块依赖于聚类结果，我们将其应用限制在MTA模块中，并在之前的阶段保留SR块。图10展示了CR-MTA模块和原始MTA模块（在后续部门中称为SR-MTA模块）中留意力权重的视觉对比。如图10©所示，CR层的输出标记在输入图像中的人物和飞机之间展示了令人称赞的对齐。因此，如图10(e)所示，CR-MTA模块中的留意力权重与人体表面的清晰表面对齐，包罗手指等具体部门。相比之下，如图\underline{g}(f)所示，SR-MTA模块中的留意力权重仅对应于粗略的人体表面。
3.3 TCFormer变体的比力

TCFormerV1与TCFormerV2之间的差异概述如下：
TCFormerV1：TCFormerV1使用全局CTM模块生成动态标记，并使用SR-MTA模块聚合标记特征。该模型用于初步论文[15]中。
TCFormerV2：TCFormerV2是TCFormerV1的改进版本，通过引入局部CTM模块和CR-MTA模块来实现。与TCFormerV1相比，TCFormerV2更高效，并且能更有效地学习物体关系。
4 实验
在本节中，我们将TCFormerV1和TCFormerV2应用于多种盘算机视觉任务，包罗图像分类、人体姿态估计、语义分割和对象检测。在图像分类方面，TCFormerV1和TCFormerV2均优于其同类模型。然而，TCFormerV2的复杂度更低。在人体姿态估计方面，TCFormerV1取得了令人印象深刻的性能，而TCFormerV2进一步将性能提拔至新的最先进水平。在语义分割方面，TCFormerV1逾越了基于网格的视觉Transformer，但涉及过多的复杂度。相反，TCFormerV2以明显较低的复杂度实现了更好的性能。对于对象检测，我们仅应用了TCFormerV2，因为TCFormerV1的内存资本过高，无法接受。TCFormerV2在对象检测方面，特别是小对象检测方面，表现出优于同类模型的性能。具体结果如下。
4.1 图像分类
设置。我们在ImageNet-1K数据集[40]上训练我们的TCFormer，该数据集包罗1280万张训练图像和50,000张验证图像，跨越1000个种别。实验设置与PVT[20]同等。我们采用了随机裁剪、随机水平翻转[41]、标签平滑[42]、Mixup[43]、CutMix[44]和随机擦除[45]等数据加强方法。所有模型均从头开始训练300个周期，批量巨细为128。模型使用AdamW[46]优化器举行优化，动量为0.9，权重衰减为                                  5                      ×                      1                                  0                                     −                            2                                              5 \times 10^{-2}                5×10−2。初始学习率设置为                                  1                      ×                      1                                  0                                     −                            3                                              1 \times 10^{-3}                1×10−3，并遵照余弦调理[47]举行衰减。我们在验证集上使用                                  224                      ×                      224                            224 \times 224                224×224的中央裁剪区域来评估我们的模型。
结果。我们在表!中展示了在ImageNet1K验证集上，我们提出的TCFormer与最先进方法的比力。TCFormerV1在传统卷积骨干和Transformer骨干上均表现出良好性。具体而言，TCFormerV1达到了                                  82.4                      %                            82.4\%                82.4%的top-1准确率，这比ResNet50[32]高出                                  6.3                            6.3                6.3个百分点，比Swin-T[8]高出                                  1.1                      %                            1.1\%                1.1%，比PVT[20]高出                                  2.6                      %                            2.6\%                2.6%。这证实了我们的动态标记的有效性。然而，由于全局聚类过程，只管TCFormerV1的参数数量与其他最先进模型相当，但其盘算复杂度相对较高。相反，TCFormerV2在保持与TCFormerV1相似性能的同时，明显低落了盘算复杂度。比方，TCFormerV2-Small的性能与TCFormerV1雷同，但GFLOPs减少了                                  23.7                      %                            23.7\%                23.7%。在其他模型规模中也观察到了类似的趋势，这突出了我们在TCFormerV2中新提出的局部CTM模块的高效性和有效性。
与集成了加强Transformer块的方法（如iFormer[39]）相比，TCFormer达到了可比的性能。我们的动态标记与更先进的Transformer块的联合大概为实现卓越性能提供了一条有远景的途径。只管局部CTM模块低落了盘算复杂度，但TCFormer的吞吐量仍低于具有固定网格结构的方法。这一范围性源于我们的动态标记与现有基于网格的卷积层之间的固有不兼容性。TCFormer中使用的卷积层导致了动态标记和特征图之间耗时的转换。要办理这一挑衅，需要开发对动态标记友好的新Transformer模块或引入新的硬件支持。
4.2 人体姿态估计
人体姿态估计旨在在输入图像中定位预界说的关键点，也称为身体关节。当前的方法可以分为两类：基于热图的方法和基于回归的方法。为了全面评估TCFormer的性能，我们将TCFormer骨干网络应用于基于热图和基于回归的算法中。
4.2.1 基于热图的方法
设置。我们在COCO-WholeBody V1.0数据集[55, 56]上举行实验。COCO-WholeBody数据集是一个基于广为人知的COCO数据集[57]构建的大规模二维全身姿态估计基准，包罗凌驾20万个实例标注，针对133个预界说的关键点，其中包罗17个身体关键点、6个脚部关键点、68个面部关键点和42个手部关键点。遵照[57, 55, 56]，我们使用基于OKS（对象关键点相似度）的平均精度（AP）和平均召回率（AR）来评估模型性能。我们采用MMPose[48]的默认训练和评估设置，仅将Adam优化器[58]更换为具有0.9动量和                                  1                      ×                      1                                  0                                     −                            2                                              1 \times 10^{-2}                1×10−2权重衰减的AdawW优化器[46]。
结果。表KaTeX parse error: Undefined control sequence: \Perp at position 12: \underline{\̲P̲e̲r̲p̲}展示了在COCO-WholeBody V1.0数据集[56]上的结果。我们将TCFormer与之前的最先进方法举行了比力，如HRNet[18]和ZoomNet[55]。TCFormerV1以较大优势逾越了之前的最先进方法，而TCFormerV2进一步提高了性能并低落了盘算复杂度。在输入分辨率为                                  256                      ×                      192                            256 \times 192                256×192的环境下，TCFormerV2-Small达到了                                  57.5                      %                                  A                         P                                     57.5\% \mathrm{AP}                57.5%AP和                                  68.2                      %                                  A                         R                                     68.2\% \mathrm{AR}                68.2%AR的性能，分别比HRNet-w32高出                                  2.2                      %                                  A                         P                                     2.2\% \mathrm{AP}                2.2%AP和                                  5.6                      %                                  A                         R                                     5.6\% \mathrm{AR}                5.6%AR。在更高的输入分辨率和更大的模型下，TCFormerV2-Base达到了新的最先进性能，即                                  65.1                      %                                  A                         P                                     65.1\% \mathrm{AP}                65.1%AP和                                  74.2                      %                                  A                         R                                     74.2\% \mathrm{AR}                74.2%AR，分别比HRNet48高出                                  2.0                      %                                  A                         P                                     2.0\% \mathrm{AP}                2.0%AP和比SBL-Res152[54]高出                                  4.1                      %                                  A                         P                                     4.1\% \mathrm{AP}                4.1%AP。TCFormer的改进归功于其卓越的细节捕捉能力。人手具有复杂的结构，但在输入图像中通常占据较小的区域，这对模型重建手部关键点构成了挑衅。如表                                           ∥                         ‾                                     \underline{\|}                ∥所示，大多数模型在手部关键点估计上的表现远逊于其他部位。相比之下，我们的TCFormer能够更好地捕捉图像细节，因为它使用更精细的视觉标记来表示细节，从而在手部关键点估计上取得了明显改进。具体而言，TCFormerV2-Small在手部关键点上的                                  A                      P                            \mathrm{AP}                AP比HRNet-w32高出                                  6.2                      %                            6.2\%                6.2%，而TCFormerV2-Base则比HRNet-w48高出                                  3.9                      %                            3.9\%                3.9%。我们在图11中展示了TCFormer的一些定性结果，展示了TCFormer-Base的一些定性结果。
4.2.2 基于回归的方法
设置。我们选择COCO[57]数据集来评估TCFormer在基于回归的人体姿态估计中的性能。COCO是一个大规模的人体姿态估计数据集，包罗凌驾25万个实例标注，针对17个预界说的人体关键点。我们将TCFormer骨干网络应用于RLE[63]框架，并遵照MMPose[48]的默认训练和评估设置。所有比力的方法都使用在ImageNet1K[40]数据集上预训练的权重。由于RLE是基于回归的方法，因此它不需要麋集输出。因此，我们在实验中不使用MTA模块。相反，我们直接从末了一阶段的平均标记特征中回归关键点位置，这与图像分类的设置类似。
结果。我们在图12中展示了TCFormer的一些定性结果。表                                           I                         ‾                                     \underline{I}                I展示了在COCO验证集上TCFormer与其他最先进方法的比力。TCFormer在基于卷积的模型（RLE[63]+ResNet[32]）和基于Transformer的模型（TransPose[62]）上都有很大的优势。在相似的盘算复杂度下，RLE+TCFormerV2-Base比RLE+ResNet152高出                                  2.9                      %                                  A                         P                                     2.9\% \mathrm{AP}                2.9%AP，比TransPose-R-A4高出                                  3.4                      %                                  A                         P                                     3.4\% \mathrm{AP}                3.4%AP。在更高的输入分辨率下，RLE+TCFormerV2-Base达到了                                  77.1                      %                                  A                         P                                     77.1\% \mathrm{AP}                77.1%AP的新最先进性能。我们还在表                                                       I                            V                                     ‾                                     \underline{I V}                IV中报告了TCFormer在COCO测试集上的性能。RLE+TCFormerV2-Base以                                  76.1                      %                                  A                         P                                     76.1\% \mathrm{AP}                76.1%AP的成绩逾越了其他最先进的基于回归的方法。值得留意的是，虽然RLE+HRNet使用麋集特征图和更复杂的预测头，但RLE+TCFormer仅使用简单的回归头。
4.3 语义分割
设置。我们在ADE20K数据集[72]上举行实验，该数据集是语义分割领域的一个大规模基准。ADE20K包罗25K张带有150个种别标注的图像，并分别划分为20K、2K和3K张图像用于训练、验证和测试。我们的方法TCFormer应用于两个差别的框架：传统的基于卷积的框架Semantic FPN[73]和更近的基于Transformer的框架Mask2Former[10]。在所有环境下，我们都使用在ImageNet-1K上预训练的权重来初始化骨干网络。对于Semantic FPN框架，我们使用TCFormer作为骨干网络，并用我们提出的MTA模块更换FPN[19]模块。我们遵照PVT[16]的实验设置。在训练过程中，图像被随机调整巨细和裁剪到                                  512                      ×                      512                            512 \times 512                512×512。而在评估时，图像被调整巨细，使得较短的边有512个像素。我们以批量巨细为16训练我们的模型40k次迭代，并使用AdamW优化器举行模型优化。初始学习率设置为                                  1                      ×                      1                                  0                                     −                            4                                              1 \times 10^{-4}                1×10−4，并按照幂为0.9的多项式衰减操持举行衰减。对于Mask2Former框架，我们将TCFormer实现为骨干网络，并用我们的MTA模块更换像素解码器。我们遵照[10]的实验设置。所有模型都使用AdamW优化器举行160k次迭代优化，初始学习率为                                  1                      ×                      1                                  0                                     −                            4                                              1 \times 10^{-4}                1×10−4，权重衰减为0.05。我们使用多项式操持来衰减学习率。
结果。图                                           13                         ‾                                     \underline{13}                13展示了TCFormer与Semantic FPN框架的定性结果。在表                                           v                         ‾                                     \underline{v}                v中，我们将TCFormer与其他基于Semantic FPN框架的最先进方法举行了比力。我们的方法TCFormer在CNN模型（ResNet[32]）和Transformer模型（PVT[20]）上都有明显优势。具体来说，TCFormerV2-Small的mloU比ResNet50高出11.1个百分点，比PVTV2-B2[16]高出2.6个百分点。然而，当输入分辨率为                                  512                      ×                      512                            512 \times 512                512×512时，TCFormerV1中使用的全局令牌聚类方法会导致不可接受的盘算复杂度，这从表                                           v                         ‾                                     \underline{v}                v中TCFormerV1模型的巨大GFLOPs值可以反映出来。通过使用局部CTM模块，TCFormerV2在所有模型规模下都实现了更好的性能，同时节流了大量的盘算复杂度。与TCFormerV1相比，TCFormerV2-Small在仅使用                                  48.1                      %                            48.1 \%                48.1% GFLOPs的环境下，实现了                                  0.7                      %                            0.7 \%                0.7%的mloU性能提拔。
在表VI中，我们展示了基于Mask2Former框架的TCFormer的结果。在所有模型规模下，TCFormer在ResNet和Swin模型上都有很大的优势。TCFormer中使用的动态视觉令牌使模型能够根据图像的语义意义分配盘算资本，从而使TCFormer比传统的视觉Transformer更加高效。具体来说，在                                  640                      ×                      640                            640 \times 640                640×640的分辨率下，TCFormerV2-Base比Swin-B高出                                  1.4                      %                            1.4 \%                1.4%。
4.4 目的检测
设置。我们在知名的COCO 2017基准数据集[57]上举行目的检测实验。COCO 2017数据集包罗118K张训练图像和5K张验证图像，并为80个对象种别提供了标注。为了评估TCFormer的有效性，我们将其用作RetinaNet[77]和Mask-RCNN[65]的骨干网络。别的，我们还用我们的MTA模块更换了RetinaNet和Mask-RCNN框架中的FPN模块，以充分使用我们动态令牌的优势。我们遵照MMDetection[78]的大多数默认设置，但使用AdamW优化器优化模型，初始学习率为                                  1                      ×                      1                                  0                                     −                            4                                              1 \times 10^{-4}                1×10−4。我们采用常见的                                  1                      ×                            1 \times                1×和                                  3                      ×                            3 \times                3×设置以举行公平比力。
结果。TCFormer与Mask R-CNN的定性结果如图14所示。如表VII所示，TCFormer在RetinaNet框架上的表现优于其他模型。具体而言，TCFormerV2-Small的mAP比Swin-T[8]高3.5个百分点，比PVT-Small[20]高4.6个百分点。与生成基于网格的视觉令牌的视觉转换器相比，TCFormer在检测小对象方面的优势尤为明显。比方，在检测小对象的度量（                                                       A                            P                                     S                                     \mathrm{AP}_{\mathrm{S}}                APS）上，TCFormerV2-Small比PVTV2-B2[16]高出                                  1.4                      %                                  A                         P                                     1.4 \%\mathrm{AP}                1.4%AP，而在整体度量上的改进为                                  0.4                      %                                  A                         P                                     0.4 \%\mathrm{AP}                0.4%AP。这表明TCFormer中使用的动态视觉令牌在捕获小尺寸图像细节方面非常有效，符合我们的目的。
在表VII中，我们报告了在Mask R-CNN框架下目的检测和实例分割的结果。结果表明，TCFormer的性能优于其同类方法。比方，在                                  1                      ×                            1 \times                1×设置下，TCFormerV2-Small在目的检测上的AP（平均精度）比Swin-T高出                                  3.9                      %                            3.9\%                3.9%，在实例分割上的AP高出                                  2.8                      %                            2.8\%                2.8%。同样，与PVTv2-B2相比，TCFormerV2-Small在目的检测上的AP提拔了                                  0.8                      %                            0.8\%                0.8%，在实例分割上的AP提拔了                                  0.7                      %                            0.7\%                0.7%。在RetinaNet和Mask R-CNN框架中观察到的同等改进，证实了我们TCFormer的普遍优势和有效性。
5 分析
5.1 消融研究
模型组件。我们使用ADE20K基准数据集对语义分割任务举行了消融分析。我们将TCFormerV2-Small集成到Semantic FPN框架中，并在表VIII中展示告终果。实验设置与第4.3节中概述的保持同等。
全局CTM模块（mloU增长                                  0.9                      %                            0.9\%                0.9%）和局部CTM模块（mloU增长                                  0.5                      %                            0.5\%                0.5%）的明显提拔，证实了我们动态视觉标记在图像特征学习中的优势。然而，全局CTM模块涉及的高复杂度（                                  42.1                            42.1                42.1 GFLOPs）使其在实际应用中并不切实际。相比之下，局部CTM模块要高效得多，仅涉及                                  5.6                            5.6                5.6 GFLOPs，比全局CTM模块少了                                  86.7                      %                            86.7\%                86.7%。
如第3.13节所述，传统的基于CNN的特征聚合模块无法充分使用我们动态视觉标记捕获的细节。为了证实我们的观点，用我们的MTA模块更换FPN模块后，进一步提拔了性能，这证实了MTA模块计划的有效性。与原始的SR-MTA模块相比，CRMTA模块既更有效也更高效。CR-MTA模块减少了参数和复杂度，但在使用全局CTM模块时比SR-MTA模块的性能提拔了                                  0.5                      %                                  m                         l                         o                         U                                     0.5\% \mathrm{mloU}                0.5%mloU，在使用局部CTM模块时提拔了                                  0.7                      %                                  m                         l                         o                         U                                     0.7\% \mathrm{mloU}                0.7%mloU。实验结果证实，CR-MTA模块能够充分使用我们动态标记的优势，如第3.2.2节所示。
聚类方法。我们通过将差别的聚类方法集成到TCFormerV2-Small模型中，并在ImageNet验证集上评估它们的性能，来评估这些聚类方法的影响。结果详见表\underline{IX}。对于K-means算法，我们遵照[28]中的方法，使用特征图上的自顺应平均池化来初始化聚类中央，然后通过10次迭代更新聚类结果。二分软匹配（BSF）方法[27]将标记分为两组，并归并这两组之间相似度最高的标记对。由于单个BSF步骤无法将标记数量减少到原始数量的四分之一，我们在每个阶段的末端采用5个BSF步骤，以实现与其他方法雷同的标记减少量。紧张的是要留意，在更改聚类方法后，我们没有对模型举行进一步的微调。
如表\underline{X}所示，我们的模型对差别聚类方法表现出鲁棒性。在没有额外微调的环境下，使用局部DPC-kNN算法训练的模型能够很好地顺应其他聚类方法，表现出可忽略不计的性能下降。最终，我们选择局部DPC-kNN算法，因为它更高效。
5.2 标记分布
图15展示了TCFormer在差别任务（包罗图像分类、人体姿态估计、语义分割和目的检测）中生成的动态视觉标记的一些示例。这些示例展示了我们的动态视觉标记的优势。
首先，如图15所示，TCFormer生成的动态标记与输入图像中的对象很好地对齐。这种对齐相比传统的基于固定网格的标记提供了更清晰的语义意义，从而有助于学习标记特征和对象关系。其次，TCFormer使用精细的标记来表示小尺寸中的复杂细节，如图15(b)中的人手和图15(d)中的风筝。使用精细标记来表示这些细节使得TCFormer能够更有效地捕获具体信息。
第三，TCFormer根据当前任务调整标记分布，并将更多标记分配给关键区域，从而使模型能够专注于这些区域并学习更好的图像表示。对于图像分类和人体姿态估计任务，输入图像中通常有一个明白的主体。如图15(a)和图15(b)所示，TCFormer将配景区域与属于主体的区域区分开来，并将大部门标记分配给后者。相反，配景区域仅由少数视觉标记表示。在语义分割和目的检测任务中，由于通常没有明白的主体，TCFormer根据图像区域中的信息量来调整标记分布。如图15©和图15(d)所示，TCFormer用较少的标记表示简单区域，并将更多标记分配给复杂区域。值得留意的是，纵然在图像分类和人体姿态估计任务中，复杂的配景也不会斲丧更多标记，如图15(b)中的示例所示，因为这些任务不需要配景信息。为了进一步支持我们的结论，我们训练了两个模型来分别估计人手和人脸关键点。这两个模型生成的动态标记如图16所示。任务特定的动态标记表明，TCFormer能够自动为差别任务调整标记分布，并关注关键区域。
6 结论
在本文中，我们提出了标记聚类Transformer（TCFormer），这是一种新颖的基于Transformer的架构，适用于广泛的视觉任务。TCFormer生成动态标记，这些标记加强了模型关注关键区域并保留复杂细节的能力，同时忽略不必要的配景信息。我们在多个视觉任务上举行了广泛的实验，包罗图像分类、人体姿态估计、语义分割和对象检测，实验结果表明，TCFormer在保持相当参数数量的同时，优于最先进的基于Transformer的主干网络。我们以为TCFormer具有应用于多种领域的潜力。我们希望我们的研究能够引发对动态视觉标记领域的进一步探索，推动更先进架构的发展。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)