算法论文/目标检测4——先容DETR家属到DINO的发展史

登录 · 发表于 2025-11-16 02:42:36

Object Detection with Transformers: A Review学习一下DETR是怎样发展的
择要

        Transformer 在天然语言处置惩罚（NLP）中的惊人性能促使研究职员探索它们在盘算机视觉使掷中的应用。DEtection TRansformer （DETR）通过将检测重构为聚集推测题目，将转换器引入对象检测使命。因此，无需提案天生和后处置惩罚步调。最初，只管性能具有竞争力，但DETR 的练习收敛速率慢，对较小物体的检测服从低下。然而，为了办理这些题目，人们提出了很多改进，从而大大改进了 DETR 并使其可以大概展示开始进的性能。据我们所知，这是第一篇对原始 DETR 模子中迩来提出的 21 项希望举行全面回顾的论文。我们深入研究了 DETR 的底子模块及其迩来的加强功能，比方对主干结构的修改、查询筹划战略和对留意力机制的改进。别的，我们对各种检测变压器举行了比力分析，评估了它们的性能和网络架构。我们渴望这项研究能引发研究职员对办理现有挑衅和探索变压器在目标检测范畴的应用的爱好。对检测变压器的连续发展感爱好的读者可以参考我们的网站 https://github.com/mindgarage-shan/transformer_object_detection_survey。
关键词：Transformer、Object Detection、DETR、Computer Vision、Deep Neural Networks
1、弁言

        物体检测是盘算机视觉中的根本使命之一，涉及对图像中的物体举行定位和分类 [1]， [2]， [3]， [4]。多年来，凸神经网络（CNN）不停是对象检测模子的重要支柱 [1]。然而，迩来 transformer 在天然语言处置惩罚（NLP）方面的乐成也促使研究职员探索它们在盘算机视觉中的潜力 [5]。transformer 架构 [6] 已被证明可以有效地捕捉序列数据 [6] 中的长隔断依靠关系，使其成为对象检测使命的有吸引力的候选者。
        2020 年，Carion 等人提出了一种名为 DEtection TRansformer （DETR） [7] 的新型对象界说框架，它用利用 transformer 编码器-解码器网络的完全端到端的可练习架构代替了传统的基于地区发起的方法。DETR 网络表现出有渴望的效果，其性能优于基于 CNN 的通用对象检测器 [1]、[2]、[3]、[4]，同时还消除了对手工制作组件（如地区发起网络）和非极大值克制（NMS） [8] 等后处置惩罚步调的需求。
        自引入 DETR 以来，已经提出了一些修改和改进来降服其范围性，比方慢速练习收敛和小对象的性能降落。图 1 表现了文献关于 Detection Transformer 及其改进性能和练习收敛性的修改的概述。

Deformable-DETR [9] 将留意力机制视为练习转换迟钝的重要缘故起因，从而修改了留意力模块来处置惩罚图像特性图。
UP-DETR [10] 提出了对 DETR 的预练习的一些修改，类似于天然语言处置惩罚中 transformer 的预练习。
Efficient-DETR [11] 基于原始 DETR 和 Deformable-DETR 查抄了 ran domly 初始化的对象概率，包罗参考点和对象查询，这是多次练习迭代的缘故起因之一。
SMCA-DETR [12] 引入了一个空间调制的共留意力模块，它代替了 DETR 中现有的共留意力机制，以降服 DETR 练习收敛迟钝的题目。
TSP-DETR [13] 处置惩罚了二分匹配的交织留意力和不稳固性，以降服 DETR 的迟钝练习收敛。Conditional-DETR [14] 提出了一种条件交织留意机制来办理练习收敛是 DETR 的 sue 题目。
WB-DETR [15] 将用于特性提取的 CNN 主干视为一个额外的组件，并提出了一个没有主干的 transformer 编码器-解码器网络。
PnP-DETR [16] 提出了一个 PnP 采样模块，以镌汰空间冗余并进步变压器网络的盘算服从。
Dynamic-DETR [17] 在编码器-解码器网络中引入动态留意力，以进步练习收敛性。
YOLOS-DETR [18] 利用有关输入空间筹划的最少信息，展示了 Transformer 从图像辨认到序列方面的检测的可转移性和多功能性并进步性能。
Anchor-DETR [19] 提出了对象查询作为锚点，广泛用于基于 CNN 的对象检测器。
Sparse-DETR [20] 通过利用可学习的交织留意力图过滤编码器标记来低落盘算本钱。
D2ETR [21] 利用来自主干网络的解码器中的精致融合特性图，并带有一个新颖的跨标准留意力模块。
FP-DETR [22] 重新确定了检测变压器的预练习和微调阶段。
CF-DETR [23] 利用当地信息来优化推测位置，由于禁绝确的界限框位置会低落小物体的性能。
DN DETR [24] 利用有噪声的对象查询作为额外的解码器输入，以镌汰 DETR 中二分匹配机制的不稳固性，从而导致收敛慢题目。
AdaMixer [25] 以为编码器是主干息争码器之间的额外网络，由于其筹划复杂性，它限定了性能并减慢了练习收敛速率。它提出了一个 3D 采样过程息争码器中的一些其他修改。
REGO-DETR [26] 提出了一种基于 RoI 的检测细化方法，以改善检测转换器中的留意力机制。DINO [27] 思量了正和负噪声对象查询，以加速练习收敛速率并进步小对象的性能。

由于基于 transformer 的检测方法的快速发展，跟踪新的希望变得越来越具有挑衅性。因此，对正在举行的希望举行检察是须要的，这将对该范畴的研究职员有所资助。本文具体概述了检测转化器的最新希望。表 1 表现了为进步性能和练习收敛性而举行的 Detection Transformer （DETR）修改概述。

1.1 我们的贡献

        1）从架构角度具体回顾基于 transformer 的检测方法。我们根据 Backbone 修改、预练习水平、留意力机制、查询筹划等对 DEtec tion TRansformer （DETR）的改进举行分类和总结。所提出的分析旨在资助研究职员从性能指标方面更深入地相识检测变压器的关键部件。
        2）检测转化器的性能评估。我们利用盛行的基准 MS COCO [30] 评估了检测反式成型器的改进。我们还夸大了这些方法的长处和范围性。
        3）分析改进版本的检测反式转换器的正确性和盘算复杂性。我们提出了开始进的基于 transformer 的检测方法与留意力机制、主干修改和查询筹划的评价性比力。
        4）检测变压器的关键构建块概述，以进一步进步性能和将来方向。我们研究了影响网络性能和练习融合的变量关键架构筹划模块的影响，为将来研究提供大概的发起。
别的论文的分列方式如下。第 2 节讨论了从前的相干观察变压器。第 3 部门与对象检测和变压器有关，全部视觉范例。第 4 节是重要部门，它具体表明确检测变压器中的修改。Sec tion5 是关于评估协议的，而 Section6 提供了检测变压器的评估比力。第 7 节讨论了 openchallenges 和 futuredirections。末了，Section8总结论文。
2、相干从前的品评和观察

        很多观察研究了对象检测中的深度学习方法[40]、[41]、[42]、[43]、[44]、[45]。Table2 列出了现有的对象检测观察。在这些观察中，很多研究全面回顾了处置惩罚差异二维数据范例的方法 [31]、[33]、[46]、[47]。其他研究侧重于特定的2D应用[34]，[48]，[49]，[50]，[51]，[52]，[53]，[54]和其他使命，如分割[55]，[56]，[57]，图像标题[58]，[59]，[60]，[61]和目标跟踪 [62]。别的，一些观察研究了深度学习方法并引入了视觉转换器 [36]、[37]、[38]、[39]。然而，大多数文献的重新检索是在改进之前发表的，而且缺少对基于变压器的对象检测器的具体检察。因此，对连续希望的观察是须要的，而且对研究职员会有所资助。

3、目标检测和VIT

3.1 ObjectDetection

本节先容了 objectDetection 的关键概念和从前利用的对象检测器。关于目标检测概念的更具体分析可以在 [35]， [63]， [64] 中找到。对象检测使命通过为每个对象及其种别提供界限框来定位和辨认图像中的对象。这些检测器通常是在 PASCALVOC [65] 或 MSCOCO[30] 等数据集上练习的。骨干网络将输入图像的特性提取为特性图[66]。通常，ResNet-50 [67] 等主干网络在 ImageNet [68] 上举行了预练习，然后微调到卑鄙使命 [69]、[70]、[71]、[72]、[73]、[74]。别的，很多作品也以视觉变形器 [75]、[76]、[77] 为支柱。单阶段对象检测器[3]， [4]， [78]， [79]， [80]， [81]， [82]， [83]， [84]， [85]， [86]只利用一个网络，速率更快，但性能比两阶段网络低。两阶段对象检测器 [1]、[2]、[8]、[66]、[87]、[88]、[89]、[90]、[91]、[92] 包罗两个网络，以提供终极的界限框和类标签。轻量级检测器：轻量级检测器是对象检测模子，旨在进步盘算服从，而且比标准对象检测模子须要更少的盘算资源。这些是实时对象检测器，可用于小型装备。这些网络包罗 [93]， [94]， [95]， [96]， [97]， [98]， [99]， [100]， [101]。3D 对象检测：3D 对象检测的重要目标是利用 3D 界限框辨认感爱好的对象并给出类标签。3D方法分为三类：基于图像的[102]、[103]、[104]、[105]、[106]、[107]、[108]、基于点云的[109]、[110]、[111]、[112]、[113]、[114]、[115]、[116]、[117]和基于多模态融合的[118]、[119]、[120]、[121]、[122]。
3.2 分割的Transformer

        自我留意机制可以用于分离使命 [123]、[124]、[125]、[126]、[127]，提供像素级 [128] 推测效果。全景分割 [129] 通过提供每个像素的类和实例标签，共同办理语义和实例分割使命。Wang等[130]在三个基准[131]、[132]、[133]上提出了用于全景分割使命的位置敏感轴向留意。上述分割方法在基于 CNN 的网络中具有自我关注本领。迩来，包罗编码器-解码器模块的分段变压器[124]和[126]为利用变压器举行分段使命提供了新的方向。
3.3 用于场景和图像天生的Transformer

        从前，文本到图像的天生方法[134]、[135]、[136]、[137]都是基于GAN [138]。Ramesh等[139]先容了一种基于变压器的模子，用于从提供的文本细节中天生高质量的图像。Transformer 网络也应用于图像合成 [140]、[141]、[142]、[143]、[144]，这对于学习卑鄙使命的无监督和天生模子很告急。利用无监督练习步伐 [141] 的特性学习在两个数据集 [145] 上实现了开始进的性能 [146]，而 SimCLR [147] 在 [148] 上提供了相当的性能。iGPT 法师天生网络 [141] 不包罗类似于语言建模使命的预练习步伐。然而，基于无监督CNN的网络[149]、[150]、[151]将先验知识视为架构结构、留意力机制和通例化。具有基于 CNN 的主干的天生对抗网络（GAN） [138] 不停吸引着图像合成论文 [152]、[153]、[154]。TransGAN [143] 是一个强盛的GAN网络，此中天生器和甄别器包罗变压器模块。这些基于 transformer 的网络可提升场景和图像天生使命的性能。
3.4 用于低级视觉的Transformer

        低级视觉分析图像以辨认其根本组件，并为进一步处置惩罚和更高级别的使命创建中心表现。在观察到留意力网络在高级视觉使掷中的显着表现[7]、[124]之后，针对低级视觉题目引入了很多基于留意力的方法，如[155]、[156]、[157]、[158]、[159]。
3.5 多模态使命的Transformer

        多模态使命涉及对来自多个泉源或模态（如文本、图像、音频或视频）的处置惩罚和组合。跨性别者网络在视觉语言使掷中的应用也很广泛，包罗视觉问答 [160]、视觉知识推理 [161]、跨模态检索 [162] 和图像形貌[163]。这些变压器符号可分为单流 [164]、[165]、[166]、[167]、[168]、[169] 和双流网络 [170]、[171]、[172]。这些网络之间的重要区别在于丧失函数的选择.
4 检测的Transformer

        本节扼要先容了 DEtection TRansformer （DETR）及其改进，如图 2 所示。

4.1 DETR

检测转换器（DETR） [7] 架构比基于 CNN 的检测器（如 Faster R-CNN）[173] ）简单得多，由于它消除了对锚点天生过程和后处置惩罚步调（如非极大值克制（NMS））的需求，并提供了最佳检测框架。DETR 网络有三个重要模块：一个带有位置编码的骨干网络、一个编码器和一个带有留意力机制的解码器网络。从主干网络中提取的特性作为一个单一的向量及其在输入向量中的位置编码[174]、[175]馈送到编码器网络。在这里，对转发到多头留意力和前馈网络的键、查询和值矩阵实验自留意力，以找到输入向量的留意力概率。DETR 解码器将对象查询与编码器输出并行举行。它通过并行解码 N 个对象查询来盘算推测。该网络不须要NMS 来删除冗余推测，由于它利用二分匹配丧失和并行解码 [177]、[178]、[179]。相比之下，从前的工作利用基于 RNN 的自循环解码 [180]、[181]、[182]、[182]、[183]、[184]。DETRnetwork 存在一些挑衅，比方练习收敛迟钝和小目标的性能降落。为了应对这些挑衅，对 DETR 网络举行了修改。
4.2 Deformable-DETR

DETR 的 attention 模块在初始化阶段为输入特性图的全部像素提供同一的权重值。这些权重须要很多 epoch 举行练习收敛，以找到信息丰富的像素位置。但是，它须要高盘算量和大量内存。编码器中自我留意的盘算复杂度为 O（w2 ih2 ici），而解码器中交织留意力的盘算复杂度为 O（hiwic2 i+Nhiwici）。这里，hi 和 wi 分别表现输入特性图的高度和宽度，N表现作为输入提供给解码器的对象查询。Deformable-DETR [9] 将留意力网络视为练习收敛迟钝和受限特性空间分辨率的重要缘故起因，从而修改了受 [185]、[186] 开导的留意力模块来处置惩罚图像特性图。此留意力模块用于在参考点附近收罗少量样本。在图 3 中，右上角的块表现 Deformable-DETR 中的可变形留意力模块。

多标准特性图：高分辨率输入图像特性进步了网络服从，特别是对于小物体。但是，这在盘算上是昂贵的。Deformable-DETR 提供高分辨率特性，而不会影响盘算。它利用包罗高分辨率和低分辨率特性的特性金字塔，而不是原始的高分辨率输入图像特性图。此特性金字塔的输入图像分辨率为 1/8、1/16 和 1/32，并包罗其相对位置嵌入。简而言之，Deformable-DETR 用多标准可变形留意力模块代替了 DETR 中的留意力模块，以低落盘算复杂度并进步性能。
4.3 UP-DETR

        Dai et al. [10] 提出了一些修改来预练习 DETR，类似于 NLP 中的预练习转换器。来自输入图像的随机巨细的补丁用作解码器的对象查询作为输入。UP-DETR 提出的预练习有助于检测这些随机巨细的查询补丁。在图 3 中，左下角的块表现 UP-DETR。在预练习期间办理了两个题目：多使命学习和多查询当地化。多使命学习：目标检测使命联合了目标定位和分类，而这些使命总是具有差异的特性 [187]、[188]、[189]。补丁检测会陵犯分类特性。该文提出通过补丁特性重修和冻结预练习主干举行多使命学习，以掩护transformer的分类特性。
多查询定位：DETR 的解码器将对象查询作为输入，以关注差异的位置和框巨细。当此对象查询数 N（通常为 N = 100）较高时，单个查询组不符合，由于它存在收敛题目。为了办理对象查询和补丁之间的多查询定位题目，UP-DETR 提出了一种留意力掩码和查询洗牌机制。对象查询的数量分为 X 个差异的组，此中每个补丁提供给 N/X 个对象查询。只管对象查询被分别为多个组，但在卑鄙练习使命期间，这些查询没有明确的组。因此，这些查询在预练习期间通过将 10% 的查询补丁屏蔽为零来随机洗牌，类似于 dropout [191]。
4.4 Efficient-DETR

        DETR的性能还取决于对象查询，由于检测头会从对象查询中得到终极推测。但是，这些对象查询在练习开始时是随机初始化的。基于 DETR 和 Deformable-DETR 的 Efficient-DETR [11] 查抄随机初始化的对象块，包罗参考点和对象查询，这是多次练习迭代的缘故起因之一。在图 3 中，右下角的框表现了 Efficient DETR。
        Efficient-DETR 有两个重要模块：一个 dense 模块和一个 sparse 模块。这些模块具有类似的终极检测头。麋集模块包罗骨干网络、编码器网络和检测头。在 [192] 之后，它利用滑动窗口通过特定于类的麋集 prediction 天生提案，并选择 Top-k 特性作为对象查询和参考点。Efficient-DETR 利用 4-D 框作为参考点，而不是 2D 中心。希罕网络与 dense 网络实验类似的工作，但其输出巨细除外。dense 模块中的特性被视为 sparse 模块的初始状态，这被以为是对象查询的良好初始化。麋集模块和希罕模块都利用一对一的赋值规则，如 [193]、[194]、[195] 中所示。
4.5 SMCA-DETR

        它的解码器将对象查询作为输入，负责各种空间位置的对象检测。这些对象查询与编码器中的空间功能相联合。DETR 中的共留意力机制涉及在对象查询和图像特性之间盘算一组留意力图，以提供类标签和界限框位置。但是，DETR 解码器中与对象查询相干的视觉地区大概与推测的界限框无关。这就是 DETR 须要很多练习 epoch 来找到符合的视觉位置以准确辨认相应对象的缘故起因之一。Gao等[12]提出了一种空间调制协同留意力（SMCA）模块，该模块代替了DETR中现有的协同留意力机制，以降服DETR练习收敛迟钝的题目。在图 4 中，右上角的块表现 SMCA-DETR。对象查询估计其相应对象的比例和中心，这些对象进一步用于设置 2D 空间权重图。

4.6 TSP-DETR

TSP-DETR [13] 处置惩罚交织留意力和二分匹配的不稳固性，以降服 DETR 练习收敛迟钝的题目。TSP-DETR 提出了两个基于具有特性金字塔网络（FPN） [66] 的编码器网络的模块，以加速 DETR 的练习收敛。在图 4 中，左下角的块表现 TSP-DETR。这两个模块是TSP FCOS和TSP-RCNN，它们分别利用经典的一级探测器FCOS [196]和经典的两级探测器Faster-RCNN [197]。TSP-FCOS 利用新的感爱好特性（FoI）模块来处置惩罚变压器编码器中的多级特性。两个模块都利用二分匹配机制来加速练习收敛。
TSP-FCOS：TP-FCOS 模块依照 FCOS [196] 筹划主干网和 FPN [66]。起首，将 CNN 主干从输入图像中提取的特性馈送到 FPN 分量，产生多级特性;两个特性提取头，即分类头和辅助头，利用四个卷积层和组归一化 [198]，它们在特性金字塔阶段之间共享。然后，FoI 分类器过滤这些头的串联输出，以选择得分最高的特性。末了，transformer 编码器网络将这些 FoI 及其位置编码作为输入，提供类标签和界限框作为输出。
TSP-RCNN：与 TP-FCOS 一样，该模块通过 CNN 主干提取特性，并通过 FPN 组件天生多级特性。TSP-RCNN 模块代替了 TSP-FCOS 中利用的两个特性提取头，它依照了 Faster R-CNN [197] 的筹划。它利用地区发起网络（RPN）来查找 In terest （RoIs）的地区以进一步优化。此模块中的每个 RoI 都有一个对象性分数和一个推测的界限框。RoIAlign [89] 应用于多级特性图以获取 RoIs 信息。通过完全毗连的网络后，这些提取的特性将作为输入馈送到 Transformer 编码器。这些 RoI 提案的位置信息是四个值（cnx，cny，wn，hn），此中（cnx，cny） ∈ [0,1]2 表现 center 的标准化值，（wn，hn） ∈ [0,1]2 表现 height 和 width 的标准化值。末了，transformer 编码器网络输入这些 RoI 及其位置编码以举行正确推测。TSP-DETR 中的 FCOS 和 RCNN 模块加速了练习收敛并进步了 DETR 网络的性能。
4.7 Conditional-DETR

DETR 网络中的交织留意力模块须要高质量的 input embeddings 质量来推测正确的界限框和类标签。高质量的内容嵌入增长了练习收敛的难度。Conditional-DETR [14] 提出了一种条件交织留意机制来办理 DETR 的练习收敛题目。它与简单的 DETR 的差异之处在于输入键 ki 和输入查询 qi 以交织留意。在图 4 中，右下角的框表现有条件的 DETR。条件查询是从 2D 坐标以及前一个解码器层的嵌入输出中得到的。从 decoder-embedding 推测的候选框如下：

这里， e 是作为 input 馈送到解码器的 input embedding。该框是一个 4D 向量 [boxcxboxcyboxwboxh]，框中心值为（boxcx，boxcy），宽度值为 boxw，heightvalueasboxh .sig（）函数将推测从 0 到 1 举行标准化。FFN（）推测未规范化的盒子。r 是参考点的未归一化 2D 坐标，（0,0）是简单的 DETR。这项工作要么学习每个框的参考点 r，要么从相应的对象查询中天生它们。它从解码器的 input embedding 中学习多头交织留意的查询。此空间查询使交织留意力头思量显式地区，这有助于通过缩小空间范围来定位类标签和界限框的差异地区。
4.8 WB-DETR

DETR 通过 CNN 主干提取局部特性，并通过变压器的编解码器网络获取全局上下文。WB-DETR [15] 证明，检测变压器中用于特性提取的 CNN 主干不是逼迫性的。它包罗一个没有主干网的 transformer 网络。它序列化输入图像，并将每个独立令牌中的当地特性作为输入直接馈送到编码器。transformer 自留意力网络提供全局信息，可以正确获取输入图像 token 之间的上下文。但是，由于 transformer 缺乏局部特性建模的本领，因此须要包罗每个 Token 的局部特性和相邻 Token 之间的信息。LIE-T2T （Local Information Enhancement-T2T）模块通过重新构造和睁开相邻的 patch，并在睁开后关注每个 patch 的通道维度来办理这个题目。在图 5 中，右上角的块表现 WB DETR 的 LIE-T2T 模块。

4.9 PnP-DETR

        transformer 处置惩罚图像特性图，这些图被转换为一维特性向量以产生终极效果。固然有效，但利用完备的特性图很昂贵，由于对配景地区的盘算是无用的。PnP-DETR [16] 提出了一个轮询和池（PnP）采样模块，以镌汰空间冗余并进步变压器网络的盘算服从。该模块将图像特性图分为上下文配景特性和精致远景对象特性。然后，transformer 网络利用这些更新的特性图并将其转换为终极的检测效果。在图 5 中，左下角的块表现 PnP DETR。此 PnP 采样模块包罗两种范例的采样器：池采样器和轮询采样器。
4.10 Dynamic-DETR

        Dynamic-DETR [17] 在 DETR 的编码器-解码器网络中引入了动态留意力，以办理慢练习收敛题目和小目标检测题目。起首，提出了一种卷积动态编码器，使其对编码器网络的自留意力模块具有差异的留意力范例，以加速练习收敛速率;该编码器的关注度取决于空间效应、音阶效应和输入特性维度效应等各种因素。其次，在解码器网络中，基于 ROI 的动态留意力被交织留意力代替。该解码器有助于专注于小物体，低落学习难度并更快地收敛网络。在图 5 中，右下角的框表现 Dynamic-DETR。这个动态编码器-解码器网络具体表明如下。
动态编码器： Dynamic-DETR 对自我留意力模块利用卷积方法。给定特性向量 F = {F1，· · ··，Fn}，此中 n=5 表现来自特性金字塔的对象检测器，多标准自留意力（MSA）如下：
Attn = MSA(F).F （29）
但是，由于 FPN 的比例特性图多种多样，这是不大概的。像金字塔卷积一样，利用 2D 凸面在相邻标准内均衡差异标准的特性图 [201]。它关注未调解巨细的中心层的空间位置，并将信息通报给其缩放的相邻层。别的，SE [202] 被应用于组合特性以提供标准关注。
动态解码器：动态解码器利用混淆衰减块代替多头层，以简化交织留意力网络中的学习并改进对小物体的检测。它还利用动态卷积，而不是受天然语言处置惩罚（NLP）中 ConvBERT [203] 开导的交织留意力层。
        这些功能通过 FFN 层通报，以更新的对象嵌入、更新的框编码和对象类等各种推测。这个过程通过专注于希罕地区，然后扩展到举世地区，简化了交织留意力模块的学习。
4.11 YOLOS-DETR

        继续自 NLP 的 Vision Transformer （ViT） [5] 在图像辨认使命上表现良好。ViT-FRCNN [204] 将预练习骨干（ViT）用于基于 CNN 的检测器。它利用卷积神经网络，并依靠强盛的 2D 归纳毛病和地区池化操纵来实现对象级感知。其他类似作品，如 DETR [7]，引入了利用 CNN 和金字塔特性的 2D 归纳偏置。YOLOS-DETR [18] 利用有关输入空间筹划的最少信息，先容了 Transformer 从图像辨认到序列方面的检测的可转移性和多功能性。它紧跟 ViT 架构，颠末两次简单的修改。起首，它删除了图像分类补丁 [CLS]，并添加了随机初始化的 100 个检测补丁 [DET] 作为 [205] 以及用于对象检测的输入补丁嵌入。其次，与 DETR 类似，利用二分匹配丧失而不是 ViT 分类丧失。
4.12 Anchor-DETR

        DETR 利用可学习的嵌入作为解码器网络中的对象查询。这些 input 嵌入没有明确的物理寄义，无法分析关注点。优化网络具有挑衅性，由于对象查询会合在特定目标以外的其他内容上。Anchor-DETR [19] 通过提出对象查询作为锚点来办理这个题目，这些锚点广泛用于基于 CNN 的对象检测器。此查询筹划可以在一个地区提供多个对象推测。别的，还提出了对 attention 的一些修改，以低落内存本钱并进步性能。在图 6 中，左下角的块表现 Anchor-DETR。Anchor-DETR 的两个重要贡献：查询和留意力变体筹划，表明如下：
行和列解耦-留意：DETR 须要巨大的 GPU 内存，如 [208]、[209] 中所示，由于交织留意力模块很复杂。它比解码器中的 self-attention 模块更复杂。固然 Deformable-DETR 低落了内存本钱，但它仍旧会导致 ran dom 内存访问，使网络变慢。如图 6 左下角的块所示，行列解耦留意力（RCDA）镌汰了内存，并提供了类似或更好的服从。
锚点作为对象查询：基于 CNN 的对象检测器将锚点视为输入特性图的相对位置。相比之下，基于 transformer 的 de tectors 接纳同一的网格位置、手工制作的位置或学习的位置作为锚点。Anchor-DETR 思量两种范例的锚点：学习的锚点位置和网格锚点位置。网格锚点位置是输入图像网格点。学习的锚点位置是从 0 到 1（随机初始化）的匀称分布，并利用学习的参数举行更新。

4.13 Sparse-DETR

Sparse-DETR [20] 通过可学习的交织留意力图推测器过滤编码器标记。在将这些与解码器网络中的 kens 区分开来后，它只关注远景标记以低落盘算本钱。Sparse-DETR 引入了评分模块、编码器中的 aux-heads 息争码器的 Top-k 查询选择模块。在图 6 中，右下角的框表现 Sparse-DETR。起首，它利用选择前 ρ% 标记的评分网络确定作为输入馈送到编码器的标记的显着性。其次，aux-head 从 encoder 网络的输出中获取前 k 个令牌。末了，top-k 令牌用作解码器对象查询。
4.14 D2ETR

已经提出了很多工作 [9]、[11]、[12]、[13]、[14] 通过修改交织留意力模块来加速练习收敛。很多研究职员 [9] 利用多标准特性图来进步小目标的性能。然而，高盘算复杂度的办理方案尚未提出。D2ETR [21] 以较低的盘算本钱实现了更好的性能。不带编码器模块中，解码器直接利用骨干网络提供的精致融合特性图和新颖的跨标准留意力模块。D2ETR 包罗两个重要模块：主干息争码器。基于 Pyramid Vision Transformer （PVT）的骨干网络由两个并行层构成，一个用于跨标准交互，另一个用于标准内交互。该主干包罗四个 transformer 级别，以提供多标准特性图。全部级别都具有类似的架构，具体取决于所选 Transformer 的根本模块。主干还包罗三个并联的熔断层和四个变压器层。这些融合级别提供了输入特性的跨标准融合。第 i 个熔断层表如今图 7 的右上块中。

4.15 FP-DETR

        当代基于 CNN 的检测器，如 YOLO [210] 和 Faster RCNN [197]，利用在 ImageNet 上预练习的主干网络上的专门层，以享受预练习的利益，比方进步性能和更快的练习收敛。DETR 网络及其改进版本 [10] 仅对主干举行预练习，同时重新开始练习编码器层和 DE 编码器层。因此，transformer 须要大量的练习数据举行微调。不预练习检测转换器的重要缘故起因是预练习和终极检测使命之间的差异。起首，transformer 的 decoder 模块将多个对象查询作为检测对象的输入，而 ImageNet clas sification 只继承一个查询（类标记）。其次，自留意力模块和交织留意力模块中输入查询嵌入的投影很容易太过拟合单个类查询，使解码器网络难以 14 次预练习。别的，卑鄙检测使命侧重于分类和定位，而上游使命仅思量对感爱好对象的分类。
        FP-DETR [22] 重新确定了检测变压器的预练习和微调阶段。在图 7 中，左下角的块表现 FP-DETR。它只须要检测转换器的 en coder 网络举行预练习，由于在 ImageNet 分类使命上预练习解码用具有挑衅性。别的，DETR 同时利用编码器和 CNNbackboneas特性提取器。FP-DETR 用多标准分词器代替了 CNN 主干，并利用编码器网络来提取特性。它在 ImageNet 数据集上对 Deformable-DETR 举行了完全预练习，并对其举行了微调以举行终极检测，从而实现有竞争力的性能。
4.16 CF-DETR

        CF-DETR [23] 观察到，在低 IoU 阈值下，检测转换器上小物体的 COCO 式公制均匀精度（AP）效果优于基于 CNN 的探测器。它通过利用当地信息来优化推测位置，由于禁绝确的界限框位置会低落小对象的性能。CF-DETR 在 DETR 的解码器网络中引入了变压器加强型 FPN （TEF）模块、粗层和细层。在图 7 中，右下角的框代表 CF-DETR。TEF 模块提供与 FPN 类似的功能，具有从主干中提取的非当地特性 E4 和 E4，以及从编码器输出中提取的 E5 特性。TEF 模块和编码器网络的功能作为输入馈送到解码器。解码器模块引入了一个粗块和一个细块。coarse 块从全局上下文中选择远景特性。精致模块有两个模块，自顺应标准融合（ASF）和局部交织留意（LCA），进一步细化粗框。简而言之，这些模块通过融合全局和局部以及全局信息来改进和丰富功能，以进步检测变压器的性能。
4.17 DAB-DETR

        DAB-DETR [29] 利用界限框坐标作为解码器中的对象查询，并在每一层中渐渐更新它们。在图 8 中，右上角的块表现 DAB DETR。这些框坐标通过提供位置信息并利用 height 和 width 值来更新位置留意力图，从而加速练习收敛速率。这种范例的对象查询为 attention 机制提供了更好的空间先验，并提供了简单的查询公式机制。
        解码器网络包罗两个重要网络：一个用于更新查询的自留意力网络和一个用于查找特性探测的交织留意力网络。原始 DETR 和 DAB-DETR 的自我留意之间的区别在于，查询和键矩阵也具有从界限框坐标获取的位置信息。cross-attention 模块将 key 和 query 矩阵中的位置和内容信息毗连起来，并确定它们对应的 heads。解码器将输入嵌入作为内容查询，将锚点框作为位置查询，以查找与锚点和内容查询相干的对象概率。如许，用尴尬刁难象查询的动态框坐标可以提供更好的推测，从而加速练习收敛速率并增长对小对象的检测效果。

4.18 DN-DETR

DN-DETR [24] 利用噪声对象查询作为额外的解码器输入，以镌汰 DETR 中二分匹配机制的不稳固性，从而造成收敛慢的题目。在图 8 中，左下角的块表现 DN-DETR。解码器查询有两个部门：包罗作为输入的噪声真值框标签对的降噪部门，以及包罗作为输入的可学习锚点的匹配部门。匹配部门 M = {M0，M1,...,Ml−1} 确定真值标签对息争码器输出之间的相似性，而去噪部门 d = {d0，d1,...,dk−1} 实验将真值对象结构为：

此中 I 是作为 trans former 编码器输入的图像特性， A 是留意力掩码，用于制止匹配和降噪部门之间的信息传输，以及类似真实对象的差异噪声级别之间的信息传输。解码用具有真值对象的噪声级别，此中噪声被添加到界限框和类标签中，比方标签翻转。它包罗一个用于控制噪声水平的超参数 λ。DN-DETR 的练习架构基于 DAB-DETR，由于它也接纳界限框坐标作为对象查询。这两种架构之间的唯一区别是类标签指示符作为解码器中的附加输入，以资助标签去噪。界限框在 DAB-DETR 中的更新不同等，这使得相对偏移学习具有挑衅性。DN-DETR 中的去噪练习机制进步了性能和练习收敛性。
4.19 AdaMixer

        AdaMixer [25] 将编码器视为主干息争码器之间的额外网络，由于其筹划复杂性，它限定了性能并减慢了练习收敛速率。AdaMixer 提供不带编码器的检测变压器网络。在图 8 中，右下角的框表现 AdaMixer。AdaMixer 的重要模块分析如下。
3D 特性空间
3D 特性采样过程
AdaMixer 解码器
4.20 REGO-DETR

        REGO-DETR [26] 提出了一种基于 RoI 的检测细化方法，以改善DETR.在图 9 中，左下角的块表现 REGO DETR。它包罗两个重要模块：多级递归租赁机制和基于 glimpse 的解码器。在多级循环机制中，在前一级检测到的界限框被以为是得到 glimpse 特性的。在形貌对象时，这些被转化为利用早期留意力的精致留意力。
4.21 DINO

        DN-DETR 将正噪声添加到作为对象查询到解码器输入的锚点，并仅向附近具有真实对象的锚点提供标签。继 DAB-DETR 和 DN-DETR 之后，DINO [27] 提出了一种用于锚点初始化的混淆对象查询选择方法和一种用于框推测的前瞻性两次机制。它提供了对比降噪（CDN）模块，该模块将位置查询作为锚框，并增长了额外的 DN 丧失。在图 9 中，右下角的块表现 DINO。

5、数据集和评估指标

比力检测 Trans Former 中的修饰以相识它们对网络巨细、练习收敛和性能的影响非常告急。本节具体比力了 DETR 在常用基准 MSCOCO[30] 上的改进环境。Aminivalsetofthe COCO2014 用于检测变压器的评估。这些效果利用均匀精密度均值（mAP）作为评估指标举行评估。mAP 是每个对象种别的均匀精度（AP）的均匀值，此中 AP 是精度-召回曲线下的面积 [211]。
6、效果与讨论

DETR 中提出了很多进步，比方主干修改、查询筹划和留意力优化，以进步性能和练习收敛性。表 3 表现了 COCO minival 套件上全部基于 DETR 的筹划变压器的性能比力。我们可以观察到，DETR 在 500 个练习 epoch 中表现良好，而且在小对象上具有较低的 AP。修改后的版本进步了性能和练习收敛性，比方 DINO 在 12 个 epoch 时的 mAP 为 49.0%，而且在小对象上表现良好。

对 DETR 及其在 COCOminival 集上的练习收敛性和模子巨细的更新版本举行了定量分析。图 10 的（a）部门表现了利用 ResNet-50 主干网和练习 epoch 的检测变压器的 mAP。原始 DETR 以棕色线表现，练习收敛性低。它在 50 个练习时期的 mAP 值为 35.3%，在 500 个练习时期的 mAP 值为 44.9%。在这里，用红线表现的 DINO 在低练习 epoch 处收敛，并在全部 epoch 值上给出最高的 mAP。DETR中的留意力机制涉及盘算每对特性向量之间的成对留意力分数，这在盘算上大概很昂贵，尤其是对于大型输入图像。别的，DETR 中的自留意力机制依靠于利用固定位置编码来编码输入图像差异部门之间的空间关系。这大概会减慢练习过程并增长收敛时间。相比之下，Deformable-DETR 和 DINO 有一些修改，可以资助加速练习过程。比方，Deformable DETR引入可变形的留意力层，可以更好地捕捉空间上下文信息，进步对象检测的正确性。同样，DINO利用腺体化学习方法来练习网络，以学习更多对目标检测有效的通用特性，使练习过程更快、更有效。
图 10 的 Part（b）比力了全部检测变压器的模子巨细。在这里，YOLOS-DETR利用 DeiT small 作为主干而不是 DeiT-Ti，但它也在折痕模子尺寸上增长了 20 倍。DINO和REGO-DETR具有相当的mAP，但是REGO-DETR在模子巨细上早就比DINO早了一倍，这些网络利用的架构比原来的DETR架构复杂，这增长了总参数和团体网络巨细。

我们还在图 11 中提供了 DETR 及其在全部巨细物体上的更新版本的水化分析，对于小物体，原始 DETR 的 AP 在 50 个时期为 15.2%，而 Deformable-DETRhasanmAPvalue 在 50 个时期为 26.4%。Deformable-DETR 中的自留意力机制允许它从相邻像素中插值特性，这对于大概只占用几个像素的小物体特别有效。Deformable-DETR 中的这种机制捕捉了有关小物体的更准确和具体的信息，这可以导致比 DETR 更好的性能。

7、个开放的挑衅和将来的方向

Detection Transformers 在各种对象检测基准测试中表现出有渴望的效果。仍存在一些未办理的挑衅和改进它的将来方向。表 4 提供了全部发起的 DETR 改进版本的长处和范围性。以下是 DETR 中一些未办理的挑衅和将来改进方向：
改进留意力机制：变压器的性能依靠于留意力机制来捕捉图像中各种空间位置之间的依靠关系。如今，60% 的修改 havebeendone 在检测变压器的留意力机制中进步性能和练习收敛。将来的研究可以专注于筹划更精致的留意力机制来捕捉空间信息或纳入特定于使命的束缚。
自顺应和动态主干网：主干网也会影响网络性能和巨细。电流检测变压器去除主干或在全部图像中利用固定的主干架构。只有 10% 的骨干修改在 DETR 中完成以进步性能并镌汰网络巨细。将来研究可以探索动态背骨架构，这些架构可以根据输入图像的特性来调解其复杂性。研究职员可以改进
检测变压器，这大概会导致更令人印象深刻的效果。
进步对象查询的数量和质量：在 DETR 中作为输入馈送到解码器的数量对象查询在练习和推理期间通常是固定的。但是，图像中对象的巨细或数量大概会有所差异。稍后，在一些网络（如 DAB-DETR、DN-DETR 和 DINO）中观察到，修改对象查询的数量或质量会显着影响检测转换器的性能。DAB-DETR 利用动态锚框作为对象查询，DN-DETR 在对象查询中添加正噪声以举行降噪练习，DINO 在对象查询中添加正噪声和负噪声以改进降噪练习。将来的模子可以根据图像的内容调解对象查询的数量，以进步对象查询的数量。别的，研究职员可以包罗更多的动态和自顺应机制，以进步对象查询的质量。
8、结论

检测变压器提供了高效和准确的目标检测网络，并提供了对深度神经网络运行的看法。这篇品评具体先容了 Detection Transformers。具体来说，它侧重于 DETR 的最新希望，以证明性能和练习收敛性。修改了编码器-解码器网络中检测转换器的留意力模块以进步练习收敛性，并更新了作为解码器输入的对象查询以进步小目标的性能。我们提供了检测转换器的最新改进，包罗骨干修改、查询筹划和留意力优化。我们还从性能和架构筹划方面比力了检测变压器的上风和范围性。这篇品评侧重于对象检测使命，为 DETR 的最新希望提供了独特的视角。我们渴望这项研究将增长研究职员对办理在目标检测范畴应用变压器模子的现有挑衅的爱好。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

浏览过的版块