典型常见的基于知识蒸馏的目标检测方法总结三
泉源:Google学术2023-2024的顶会顶刊论文NeurIPS 2022:Towards Efficient 3D Object Detection with Knowledge Distillation
为3D目标检测提出了一种知识蒸馏的Benchmark范式,包罗feature的KD,Logit的cls和reg的KD,还有label KD。
https://i-blog.csdnimg.cn/direct/6f64fdcc8f554e639287379a4c186dec.png
feature的KD:instance-level的RoI feature的蒸馏
https://i-blog.csdnimg.cn/direct/1a25531257f147f694098aea35e404c1.png
Logit KD:使用西席的classification和regression与学生的输出进行蒸馏
https://i-blog.csdnimg.cn/direct/2bf24cf744d84af8bdaa23d2af7069b4.png
Label KD:将西席模子的猜测和GT的标签作为混淆label,与学生的输出的logits进行蒸馏
https://i-blog.csdnimg.cn/direct/4d098866d8cb46ac92d19660c1bc87c4.png
Total Distillation loss function
https://i-blog.csdnimg.cn/direct/a09cbf68da8b45858aa50cec4c2aae07.png
WACV 2021:Data-free Knowledge Distillation for Object Detection
我们提出了用于目标检测的深度反演(DeepInversion for Object Detection,DIODE),以实现无需数据支持的知识蒸馏,适用于经过目标检测使命训练的神经网络。从无需数据的角度来看,DIODE仅基于一个现成的预训练检测网络,无需任何先验范畴知识、生成器网络或预盘算激活值,即可合成图像。DIODE依赖于两个关键组件:起首,一套广泛的可微分增强技术,用于进步图像保真度和蒸馏效果;其次,一种新颖的主动界限框和种别采样方案,用于图像合成,从而生成大量具有多样化空间和种别目标的图像。生成的图像使得从西席检测器到学生检测器的知识蒸馏成为大概,且学生检测器是从零开始初始化的。
在一系列广泛的实行中,我们证明白DIODE能够匹配原始训练分布,从而始终比分布外的代理数据集实现更有用的知识蒸馏。在无需数据的设置中,由于缺乏原始范畴知识,分布外的代理数据集不可制止地会出现,而DIODE则有用解决了这一题目。
https://i-blog.csdnimg.cn/direct/4ddb2636d4284ff5836171b0ce4434f9.png
NeurIPS 2021:Instance-Conditional Knowledge Distillation for Object Detection
https://i-blog.csdnimg.cn/direct/accfaa8a365a4127a6ccc67d74c06ddc.png
将instance的GT坐标信息和种别信息通过instance encoder和MLP编码成learnable embedding作为cross-attention的query
https://i-blog.csdnimg.cn/direct/7dddfe00507e47cd9a02479105b7f815.png
从西席网络的FPN的多尺度表征特性整合为AT,从AT从中key和vuale,联合GT的信息编码为query进行cross-Attention,最后(mij, VTj)作为instance-conditional Knowledge
https://i-blog.csdnimg.cn/direct/4dccea2705da49e8b388e40832a0b9a1.png
Instance-Conditional Distillation
https://i-blog.csdnimg.cn/direct/948d2c6d8a61402a88fd8b7f205a42fa.png
Auxiliary Task
TPAMI 2023:Structured knowledge distillation for accurate and efficient object detection
https://i-blog.csdnimg.cn/direct/498eac8240464ae59f98c6d0293d96a0.png
NeurIPS 2022:Structural Knowledge Distillation for Object Detection
使用1-SSIM loss作为衡量西席模子与学生模子的特性差别
https://i-blog.csdnimg.cn/direct/3b66733b64ad4b1aa526044defdba50f.png
AAAI 2022:Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-Guided Feature Imitation
https://i-blog.csdnimg.cn/direct/b800945b6a6143c9a9f226da6aa5cb6f.png
CVPR 2021:General Instance Distillation for Object Detection
General Instance Selection Module:学习General Instance 集合
https://i-blog.csdnimg.cn/direct/0696b83d3d10476aa43f6698bf24668c.png
https://i-blog.csdnimg.cn/direct/05b285b6851d4628a448542a92c2d7e0.png
Feature-based Distillation:对GI集合中的instance进行RoI Align之后做特性蒸馏
https://i-blog.csdnimg.cn/direct/b975052cd2da405f90ea21da331ecd1a.png
Relation-based Distillation:对GI集合中做correlation Distillation
https://i-blog.csdnimg.cn/direct/cfd1ff704de640f89974948df4cb3c84.png
Response-based Distillation:对GI集合中的instance学习mask掩码矩阵M,进行Response logits蒸馏
https://i-blog.csdnimg.cn/direct/bf0dc6430d474d76ba53f2af1d225aab.png
ICCVW 2021:Photon-Limited Object Detection using Non-local Feature Matching and Knowledge Distillation
https://i-blog.csdnimg.cn/direct/fad3ae1927f24f879261f144c75f3447.png
提出对photon-abundant的目标检测器进行训练作为西席模子,对photon-limited的目标检测器作为学生模子,来增强低光条件下的目标检测
https://i-blog.csdnimg.cn/direct/33ac2919f12b47919380a52f77e77bd7.png
CVPR 2023:Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection
开放词汇目标检测旨在使在固定对象种别集上训练的目标检测器具备检测由任意文本查询描述的对象的泛化能力。先前的方法采用知识蒸馏从预训练的视觉语言模子(PVLM)中提取知识并将其转移到检测器中。然而,由于非自适应的发起裁剪和单层级特性模仿过程,它们在知识提取过程中存在信息粉碎题目,并且知识转移效率低下。
为了弥补这些局限性,我们提出了一个对象感知蒸馏金字塔(Object-Aware Distillation Pyramid,OADP)框架,包括一个对象感知知识提取(Object-Aware Knowledge Extraction,OAKE)模块和一个蒸馏金字塔(Distillation Pyramid,DP)机制。在从 PVLM 中提取对象知识时,前者自适应地变换对象发起,并采用对象感知掩膜注意力来获取精确而完整的对象知识。后者引入全局蒸馏和块蒸馏以实现更全面的知识转移,从而弥补对象蒸馏中缺失的关系信息。
https://i-blog.csdnimg.cn/direct/4baad35194064e0ba3e65d31dff3aeff.png
Object-Aware Knowledge Extraction (OAKE) module
Distillation Pyramid:Object Distillation,Global Distillation,Block Distillation,都是L1 loss,其一从Faster RCNN出来,其二从CLIP中出来
CVPR 2021:Distilling object detectors via decoupled features
https://i-blog.csdnimg.cn/direct/14423496f4fc4adcb18a45ee7e0b5f33.png
把图片划分为远景object区域和配景background区域,根据mask来划分,对远景和配景分别对特性和分类logits进行蒸馏
https://i-blog.csdnimg.cn/direct/20f6738c765649fb8cec619990ccdd4d.png
https://i-blog.csdnimg.cn/direct/427eb5a734134daaaf1acf6975f9f3a1.png
CVPR 2023:itKD: Interchange transfer-based knowledge distillation for 3d object detection
https://i-blog.csdnimg.cn/direct/cbd8aee4428f401481d0f4a4177311fb.png
在本文中,我们起首提出了一种主动编码器风格的框架,该框架通过基于互换转移的知识蒸馏实现通道级压缩息争压缩。为了学习西席网络的地图视图特性,西席网络和学生网络的特性分别独立地通过共享主动编码器;在此,我们使用一种压缩表现损失,它将来自学生网络和西席网络的通道级压缩知识作为一种正则化约束。解压缩后的特性沿相反方向进行转移,以缩小互换重修中的差距。最后,我们提出了一种头部注意力损失,以匹配由多头自注意力机制提取的三维目标检测信息。通过大量实行,我们验证了我们的方法能够训练出与三维点云检测使命高度适配的轻量级模子,并使用着名公共数据集(如 Waymo 和 nuScenes)证明白其良好性。
NeurIPS 2021:Distilling object detectors with feature richness
https://i-blog.csdnimg.cn/direct/fac50fb07d7f4b79a31372723bc7ff34.png
根据检测头对每个特性图上空间点的cls最大分数来定义了一个feature richness score,使用feature richness score作为FPN特性层的每一层专属的mask,使用这一mask矩阵Sij来进行FPN特性层和分类检测头的知识蒸馏
https://i-blog.csdnimg.cn/direct/1e0a750061d34f6c8421611fa1ef8c6a.png
https://i-blog.csdnimg.cn/direct/b1281696daea43a2ba8f3cbdf509b3d6.png
AAAI 2022:LGD: Label-guided self-distillation for object detection
https://i-blog.csdnimg.cn/direct/5ad49e2fa6ad448ca1e140c5d9465248.png
把GT的label信息通过PointNet encoder编码为256维度特性,与目标的appearance encoder(使用远景目标区域掩码之后的特性)的特性通过inter-object relation adapter做cross-attention得到interacted embeddings,并使用Intra-object Knowledge mapper得到一个unifed的混淆特性,与原始backbone的特性作知识蒸馏
NeurIPS 2022:Pkd: General distillation framework for object detectors via pearson correlation coefficient
https://i-blog.csdnimg.cn/direct/060c2a102af143c6bce470425890b78a.png
使用PCC系数损失作为特性之间的蒸馏损失
https://i-blog.csdnimg.cn/direct/e57c6b0ab1e74405b9ae24c2be7531ae.png
CVPR 2022:Focal and Global Knowledge Distillation for Detectors
https://i-blog.csdnimg.cn/direct/3063e021f42b43d892148c63a832fcb7.png
使用GcBlock提取全局的relation进行蒸馏,使用spatial和channel Attention mask和远景和配景mask来蒸馏局部的特性和attention
ECCV 2022:Prediction-guided distillation for dense object detection
https://i-blog.csdnimg.cn/direct/9a42191b2bab4925939ef193378a7c61.png
对于特性图的每一个位置,定义quality score如下
https://i-blog.csdnimg.cn/direct/850e0b3332f84216b08ee83dc885d9dc.png
对于一个instance object,选取特性图中对于anchor内top-k个位置,对他们的quality分数使用MLE得到高斯分布,并盘算得到mask注意力矩阵
https://i-blog.csdnimg.cn/direct/5788309137014e65a70f54878935312f.png
https://i-blog.csdnimg.cn/direct/aded36ce9dbc4603b1673a2b54588d57.png
根据分类头和回归头的差别Mask矩阵,对分类和回归的featue进行蒸馏
https://i-blog.csdnimg.cn/direct/e4c95094162e43a9ba8d931f96483d3d.png
此外,还进行了Attention的蒸馏
https://i-blog.csdnimg.cn/direct/0f975b30488643ebaefd7a423f3447a9.png
CVPR 2023:PointDistiller: Structured Knowledge Distillation Towards Efficient and Compact 3D Detection
https://i-blog.csdnimg.cn/direct/74cec18c7d21495cbb93fd50eb1157e3.png
使用importance score来盘算Top-N的sample后的feature,As和At,然后使用graph建模为图表征向量,对于每个graph的蒸馏损失,ϕ表现每个图的learning weights,dynamic graph convolution卷积后的学生与西席特性
https://i-blog.csdnimg.cn/direct/f059db2b9b004615a9027fe5eca7ce72.png
ICCV 2021:G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation
Semantic-Guided Feature Imitation (SGFI
https://i-blog.csdnimg.cn/direct/c672e7ed6d8a4d51b6d7edf2ff080c56.png
探索学生的multi-level RoI features与西席的RoI features之间的correlation,并盘算similarity scores来整合一个单层的学生RoI特性,与西席的单层RoI特性进行MSE知识蒸馏
Exploiting Region Relationship with Contrastive KD (CKD)
https://i-blog.csdnimg.cn/direct/5cbba2095af24c418327536ef705fd38.png
使用对比学习InfoNCE损失,定义西席与学生的同一个RoI特性为positive samples,差别的RoI特性为negative samples
https://i-blog.csdnimg.cn/direct/6d4b2661e9854787babc6e09d8a00284.png
ECCV 2022:Lidar distillation: Bridging the beam-induced domain gap for 3d object detection
在本文中,我们提出了激光雷达蒸馏(LiDAR Distillation)方法,以弥合差别激光雷达光束在三维目标检测中所导致的域差距。
在很多实际应用中,量产机器人和车辆所使用的激光雷达点通常比大规模公开数据集中的光束数目要少。此外,随着激光雷达升级为具有差别光束数目标其他产品型号,利用先前版本高分辨率传感器采集的标注数据变得颇具挑战。尽管在域自适应三维检测方面近期取得了一些进展,但大多数方法都难以消除由光束引起的域差距。我们发现,在训练过程中使源域的点云密度与目标域的点云密度保持划一至关重要。
**受此发现的开导,我们提出了一个渐进式框架来减轻由光束引起的域偏移。在每次迭代中,我们起首通过对高光束点云进行下采样来生成低光束伪激光雷达。然后采用师生框架从具有更多光束的数据中提取丰富信息。**在 Waymo、nuScenes 和 KITTI 数据集上使用三种差别的基于激光雷达的检测器进行的大量实行证明白我们的激光雷达蒸馏方法的有用性。值得注意的是,我们的方法在推理时不会增加任何额外的盘算成本。
https://i-blog.csdnimg.cn/direct/776d58ffaa9a4b0d8f0713e3c746f991.png
ICCV 2021:Deep Structured Instance Graph for Distilling Object Detectors
https://i-blog.csdnimg.cn/direct/761d9ee7c545423c9d8503c2b178c76e.png
把ROI之间建模为graph特性,使用graph Distillation loss进行知识蒸馏
https://i-blog.csdnimg.cn/direct/fe4a6b82013846568b2fa839c5c7337b.png
CVPR 2022:Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-Distillation
https://i-blog.csdnimg.cn/direct/89f42a019bd1417a9feea6b66caa0c61.png
在本文中,我们致力于提拔目标检测器的泛化能力。我们考虑一种实际但具有挑战性的场景,即单域广义目标检测(Single-Domain Generalized Object Detection,Single-DGOD),其目标是仅使用一个源域进行训练,学习一个在很多未见过的目标域上表现良好的目标检测器。对于单域广义目标检测而言,提取包罗对象内在特性的域不变表现(Domain-Invariant Representations,DIR)非常重要,这有助于进步对未见过域的鲁棒性。
因此,我们提出一种方法,即循环解耦自蒸馏(cyclic-disentangled self-distillation),在无需域相关注释(如域标签)监视的环境下,将域不变表现从特定域表现中解耦出来。具体来说,起首提出一个循环解耦模块,从输入视觉特性中循环提取域不变表现。通过循环利用,无需依赖域相关注释即可提拔解耦能力。然后,以域不变表现为西席,我们计划一个自蒸馏模块,进一步增强泛化能力。
在实行中,我们的方法在都会场景目标检测中进行评估。五种天气条件下的实行结果表明,我们的方法相比基线方法获得了显著的性能提拔。特殊是在夜间 - 好天场景中,我们的方法比基线方法高出 3%,这表明我们的方法有助于提拔泛化能力。
在完好光照天气下进行训练之后,迁移到特定天气和具有挑战性的场景进行目标检测
https://i-blog.csdnimg.cn/direct/4cb925d6426a406eab187d3f74fa1fa0.png
CVPR 2022:Open-vocabulary one-stage detection with hierarchical visual-language knowledge distillation
https://i-blog.csdnimg.cn/direct/e50da940cccb4ea69517a4bb823d9913.png开放词汇目标检测旨在检测训练集之外的新目标种别。先进的开放词汇两阶段检测器采用实例级视觉到视觉知识蒸馏,以使检测器的视觉空间与预训练视觉语言模子(Pretrained Visual-Language Model,PVLM)的语义空间对齐。然而,在更高效的单阶段检测器中,缺乏种别无关的对象发起阻碍了对未见对象的知识蒸馏,导致性能严峻下降。
在本文中,我们提出一种分层视觉语言知识蒸馏方法,即 HierKD,用于开放词汇单阶段检测。具体而言,探索了一种全局级知识蒸馏,将未见种别的知识从 PVLM 转移到检测器。此外,我们将所提出的全局级知识蒸馏与常见的实例级知识蒸馏相联合,以同时学习已见和未见种别的知识。
ACM MM 2022:Imitated Detectors: Stealing Knowledge of Black-box Object Detectors
深度神经网络在很多实际应用中展现出了巨大潜力,然而其知识却面对着通过暴露的服务(比方应用程序编程接口)被偷取的风险。与通常研究的分类模子提取差别,由于题目域数据收集的充分性和效率题目,对于更具挑战性的目标检测使命尚无相关研究。
在本文中,我们初次揭示了黑盒受害目标检测器可以在不知道模子结构和训练数据的环境下被轻易复制。具体而言,我们将其视为黑盒知识蒸馏,并提出了一个名为 “模仿检测器” 的师生框架,以将受害模子的知识转移到模仿模子中。
为了加速题目域数据的构建,我们通过生成合成图像来扩展题目域数据集,在其中我们应用文本 - 图像生成过程,并提供由对象种别和自然场景组成的短文本输入;为了提拔反馈信息,我们旨在通过引入迭代对抗攻击策略充分挖掘受害模子的潜在知识,在该策略中我们向受害模子提供可迁移的对抗样本,使受害模子提供更多样化且包罗更多信息的猜测。
在差别设置下的多个数据集上进行的大量实行表明,我们的方法实现了最高的模子提取准确率,并且在题目域数据集中大幅优于其他模子偷取方法。
NeurIPS 2023:
https://i-blog.csdnimg.cn/direct/1591dff7c17846f1bd78c3f5c0d29ec3.png
西席模子与学生模子之间的表征差距是知识蒸馏(KD)中一个新兴的话题。为了缩小差距并提拔性能,当前的方法常常采用复杂的训练方案、损失函数和特性对齐方式,这些方法具有使命特定性和特性特定性。
在本文中,我们指出这些方法的本质是去除特性中的噪声信息并提炼有价值的信息,并提出一种名为 DiffKD 的新颖知识蒸馏方法,使用扩散模子显式地对特性进行去噪和匹配。我们的方法基于这样的观察:由于学生模子的容量较小,学生模子的特性通常比西席模子的特性包罗更多噪声。
为了解决这个题目,我们发起使用由西席模子特性训练的扩散模子对学生模子特性进行去噪。
这使我们能够在精炼后的干净特性与西席模子特性之间进行更好的蒸馏。此外,我们引入了一个带有线性主动编码器的轻量级扩散模子以降低盘算成本,并引入一个自适应噪声匹配模块来进步去噪性能。大量实行表明,DiffKD 在各种类型的特性上均有用,并在图像分类、目标检测和语义分割使命中始终取得了开始进的性能。
CVPR 2022:Knowledge Distillation via the Target-aware Transformer
知识蒸馏已成为进步小型神经网络性能的实际尺度。先前的大多数工作都发起以一对一的空间匹配方式将西席模子的表征特性回归到学生模子。然而,人们往往忽略了这样一个事实:由于架构差别,雷同空间位置上的语义信息通常会有所差别。这极大地粉碎了一对一蒸馏方法的基本假设。
为此,我们提出了一种新颖的一对多空间匹配知识蒸馏方法。具体而言**,我们允许西席特性的每个像素根据其相似度(由目标感知Transformer生成)被蒸馏到学生特性的所有空间位置。**我们的方法在各种盘算机视觉基准测试中,如 ImageNet、Pascal VOC 和 COCOStuff10k,显著超越了开始进的方法。
https://i-blog.csdnimg.cn/direct/37e3e366917941cab72244ee61b42af3.png
WACV 2022:Improving Object Detection by Label Assignment Distillation
https://i-blog.csdnimg.cn/direct/f5630c8fdad04d76ae4ddf8f18e186a5.png
使用西席模子的猜测来盘算 Label Assignment Cost,并根据cost来分配学生的label,对学生的训练进行蒸馏指导
ICCV 2023:Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes
由于高质量标注数据获取成本高昂,大概偶然不可制止地会出现标注质量较低(比方微小目标)的环境,通过不精确界限框监视进行目标检测引起了广泛关注。以往的工作通常利用高度依赖种别信息的多示例学习(MIL)来选择并优化低质量的界限框。这些方法由于没有挖掘空间信息,存在目标偏移、群体猜测以及局部主导等题目。
在本文中,我们开导式地提出了一种基于空间自蒸馏的目标检测器(Spatial Self-Distillation based Object Detector,SSD-Det),通过挖掘空间信息以自蒸馏的方式来优化不精确的界限框。SSD-Det 利用空间位置自蒸馏(Spatial Position Self-Distillation,SPSD)模块来挖掘空间信息,并采用一种交互结构将空间信息与种别信息相联合,从而构建出一个高质量的候选框集合。为进一步改进选择流程,SSD-Det 中引入了空间划一性自蒸馏(Spatial Identity Self-Distillation,SISD)模块,以获取空间置信度来帮助选出最佳的候选框。在带有噪声界限框标注的 MS - COCO 和 VOC 数据集上进行的实行验证了我们方法的有用性,并且该方法取得了当前开始进的性能。
https://i-blog.csdnimg.cn/direct/411be5e90f634da897040cb669c5e2a7.png
CVPR 2023:Instance relation graph guided source-free domain adaptive object detection
https://i-blog.csdnimg.cn/direct/6fc37a5e538c496c8dd58976085421dc.png
无监视域适应(Unsupervised Domain Adaptation,UDA)是解决域偏移题目的一种有用方法。具体而言,UDA 方法试图对齐源域和目标域的表现,以进步在目标域上的泛化能力。此外,UDA 方法基于在适应过程中源数据可访问的假设进行工作。
然而,在实际场景中,由于隐私法规、数据传输限制或专有数据题目,带标签的源数据往往受到限制。无源域适应(Source-Free Domain Adaptation,SFDA)设置旨在通过在不访问源数据的环境下将源训练模子适应目标域来缓解这些题目。
在本文中,我们针对自适应目标检测使命探索无源域适应设置。为此,我们提出一种新的训练策略,用于在没有源数据的环境下将源训练的目标检测器适应目标域。更确切地说,我们计划一种新的对比损失,通过利用给定目标域输入的对象关系来增强目标表现。这些对象实例关系使用实例关系图(Instance Relation Graph,IRG)网络进行建模,然后用于指导对比表现学习。此外,我们利用师生框架有用地将知识从源训练模子蒸馏到目标域。在多个目标检测基准数据集上进行的大量实行表明,所提出的方法能够有用地将源训练的目标检测器适应目标域,优于开始进的域自适应检测方法。
CVPR 2023:Boosting 3D Object Detection by Simulating Multimodality on Point Clouds
https://i-blog.csdnimg.cn/direct/c116a58082574a5493fd7eb0c6e813a0.png
本文提出了一种新方法,通过辅导单模态(激光雷达)三维目标检测器模拟遵照多模态(激光雷达 - 图像)检测器的特性和相应来提拔其性能。该方法仅在训练单模态检测器时需要激光雷达 - 图像数据,一旦训练良好,在推理时仅需要激光雷达数据。
我们计划了一个新颖的框架来实现该方法:
(1)相应蒸馏用于聚焦关键相应样本并制止大多数配景样本;
(2)稀疏体素蒸馏用于从估计的关键体素中学习体素语义和关系;
(3)细粒度体素到点蒸馏用于更好地关注小而远的物体的特性;
(4)实例蒸馏用于进一步增强深度特性的划一性。
在 nuScenes 数据集上的实行结果表明,我们的方法优于所有开始进的仅使用激光雷达的三维检测器,甚至在关键的 NDS 指标上凌驾了基线激光雷达 - 图像检测器,弥补了单模态和多模态检测器之间约 72% 的 mAP 差距。
ICCV 2021:Student Customized Knowledge Distillation: Bridging the Gap Between Student and Teacher
https://i-blog.csdnimg.cn/direct/f8f803c8e2c14be8bf562f539ee4f427.png
知识蒸馏(Knowledge Distillation,KD)将繁琐网络(西席模子)中的隐含知识转移到轻量级网络(学生模子)中,并期望学生模子在没有西席模子知识的环境下比训练时取得更出色的性能。然而,一个与直觉相悖的观点是,由于容量不匹配,更好的西席模子并不肯定能造就出更好的学生模子。
为此,我们提出一种新颖的自适应知识蒸馏方法来补充传统方法。所提出的方法名为学生定制知识蒸馏(Student Customized Knowledge Distillation,SCKD),从梯度相似性的角度审视西席模子与学生模子之间的容量不匹配题目。我们将知识蒸馏表述为一个多使命学习题目,以便只有当学生模子能够从学习该知识中受益时,西席模子才将知识转移给学生模子。我们在图像分类、目标检测和语义分割等多个数据集上,使用各种西席 - 学生配置对我们的方法进行了验证。
https://i-blog.csdnimg.cn/direct/65bafd7c9a784d54956716c45ef0074b.png
在每次迭代中,蒸馏损失(包括特性蒸馏损失和logits蒸馏损失)的毗连由学生与西席的梯度相似性决定
CVPR 2022:Cross Domain Object Detection by Target-Perceived Dual Branch Distillation
https://i-blog.csdnimg.cn/direct/25e9bbd53ff146a2a8a8f17e372feef9.png
Dual-Branch Self-Attention
跨域目标检测在实际应用中是一项实际且具有挑战性的使命。由于数据分布的巨大差别以及目标域中缺乏实例级标注,其性能会受到影响。现有方法主要关注这两个难题中的一个,尽管在跨域目标检测中它们紧密相关。
为解决此题目,我们提出一种新颖的目标感知双分支蒸馏(Target-perceived Dual-branch Distillation,TDD)框架。通过在统一的师生学习方案中整合源域和目标域的检测分支,它可以有用减少域差别并生成可靠的监视信息。
具体而言,我们起首在两个域之间引入一个独特的目标发起感知器(Target Proposal Perceiver)。它可以通过利用来自迭代交叉注意力的目标发起上下文,自适应地增强源检测器对目标图像中对象的感知能力。然后,我们计划了一种简便的双分支自蒸馏策略用于模子训练,该策略可以通过两个分支中的自蒸馏渐渐整合来自差别域的互补对象知识。
AAAI 2023:Attention-Based Depth Distillation with 3D-Aware Positional Encoding for Monocular 3D Object Detection
单目三维目标检测是一项低成本但颇具挑战性的使命,由于它仅需依据单张图像输入就生成准确的三维定位信息。近期开发的深度辅助方法通过使用显式深度图作为中心特性取得了不错的成果,这些深度图要么由单目深度估计网络预先盘算得出,要么与三维目标检测联合评估得到。然而,来自估计深度先验的不可制止的毛病大概会导致语义信息与三维定位出现错位,进而造成特性模糊和次优猜测结果。
为缓解这一题目,我们提出了 ADD,即一种带有三维感知位置编码的基于注意力的深度知识蒸馏框架。与此前采用基于立体视觉或激光雷达的西席模子的知识蒸馏框架差别,我们构建的西席模子与学生模子具有雷同的架构,但额外将真实深度作为输入。得益于我们的西席模子计划,我们的框架无缝衔接、不存在域差别、易于实现,并且与目标级别的真实深度相兼容。
具体而言,我们利用中心特性和相应来进行知识蒸馏。考虑到长间隔三维依赖关系,我们为学生模子的自适应提出了三维感知自注意力和目标感知交叉注意力模块。我们进行了大量实行,以验证我们的框架在极具挑战性的 KITTI 三维目标检测基准测试中的有用性。我们在三个具有代表性的单目检测器上实现了该框架,并且相对于基线模子,在没有增加额外推理盘算成本的环境下,取得了开始进的性能。
https://i-blog.csdnimg.cn/direct/c724b217fda747f0b11ba60ae1a6d085.png
3D-Aware Attention Based Feature Distillation
https://i-blog.csdnimg.cn/direct/b1a116ffd1674f7f97846d3c4fb07391.png
Target-Aware Attention Based Response Distillation
https://i-blog.csdnimg.cn/direct/f839225a2b2c4cfe94a54eeeceb14e3b.png
PR 2022:Multi-View correlation distillation for incremental object detection
为增量目标检测提出了一种multi-view的correlation Distillation方法
channel-wise correlation
spatial-wise correlation
instance-wise correlation
https://i-blog.csdnimg.cn/direct/8e9662be6754437abd0318d140401741.png
CVPR 2022:Point-Level Region Contrast for Object Detection Pre-Training
https://i-blog.csdnimg.cn/direct/550f37612b0c4fc1bfc2d5c068f3e151.png
受Mocov2的开导,提出了point-level region contrast的对比学习预训练方法。
在这项工作中,我们提出了点级区域对比(point-level region contrast)这一用于目标检测使命的自监视预训练方法。该方法的提出受目标检测中两个关键因素 —— 定位和识别的开导。准确的定位更有利于在像素级或点级进行利用的模子,而正确的识别通常依赖于对目标更具整体性的区域级视角。
将这一视角融入预训练中,我们的方法通过直接从差别区域采样单个点对来进行对比学习。与每个区域的聚合表现相比,我们的方法对输入区域质量的变革更具鲁棒性,并且还能让我们在训练期间通过在线知识蒸馏隐式地改进初始区域分配。在处理无监视设置中碰到的不完美区域时,这两个优势都非常重要。
实行表明,点级区域对比方法在多个使命和数据集的目标检测及分割的开始进预训练方法基础上有所改进,而且我们提供了大量的溶解研究和可视化内容来帮助理解。
NeurIPS 2022:Shadow Knowledge Distillation: Bridging Offline and Online Knowledge Transfer
知识蒸馏根据西席模子在蒸馏过程中是否经过预训练以及是否一连存在,通常可分为离线蒸馏和在线蒸馏两类。离线蒸馏可以使用现有的模子,但性能总是逊于在线蒸馏。
在本文中,我们起首通过实证表明,造成它们性能差距的关键因素在于从学生模子到西席模子的反向蒸馏,而非训练方式。通过利用这种反向蒸馏对预训练的西席模子进行微调以使其适应学生模子,离线蒸馏能够获得有竞争力的性能提拔。然而,这一微调过程仍会泯灭大量的训练资源。
为缓解这一逆境,我们提出了 SHAKE,这是一个简单却有用的影子知识转移框架,它在离线蒸馏和在线蒸馏之间架起桥梁,在精度和效率之间进行衡量。
具体而言,我们在西席骨干网络上额外构建一个影子头,使其作为预训练西席模子猜测结果的模仿者,即影子。然后,利用这个影子头作为代理西席,即时与学生模子进行双向蒸馏。
通过这种方式,SHAKE 不但能用预训练模子的知识更新这个对学生模子有感知的代理西席,还极大地优化了增强型反向蒸馏的成本。
https://i-blog.csdnimg.cn/direct/49b5b1155d3f44ecad7ca286da692a16.png
https://i-blog.csdnimg.cn/direct/78d7d11820f140579d69c65584e7fde7.png
NeurIPS 2021:An Empirical Study of Adder Neural Networks for Object Detection
加法神经网络(AdderNets)依附仅使用加法运算就在图像分类使命中展现出了令人瞩目标性能,相较于采用乘法构建的传统卷积神经网络,其能效更高。与分类使命相比,在主动驾驶和人脸检测等实际应用中,通过加法神经网络来降低当代目标检测器的能耗有着强烈的需求。
在本文中,我们对用于目标检测的加法神经网络进行了实证研究。我们起首揭示出,由于加法神经网络的特性方差相对较大,预训练的加法神经网络骨干网络中的批量归一化统计量不应被冻结。此外,我们在网络的 “颈部” 部门插入了更多的快捷毗连,并计划了一种新的特性融合架构,以制止加法层产生稀疏特性。
我们开展了大量的溶解研究,对加法神经网络检测器的多少计划选择进行了探索。我们还在 COCO 和 PASCAL VOC 基准数据集上与开始进的方法进行了对比。具体而言,所提出的加法神经网络版的全卷积单阶段目标检测器(Adder FCOS)在 COCO 验证集上实现了 37.8% 的均匀精度(AP),展示出了与卷积神经网络对应方法相称的性能,同时能耗降低了约 1.4 倍。
TPAMI 2023:Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition
无西席在线知识蒸馏(Knowledge Distillation,KD)旨在协同训练多个学生模子的集合,并让它们相互蒸馏知识。尽管现有的在线知识蒸馏方法取得了不错的性能,但它们往往将种别概率作为核心知识类型,忽略了有价值的特性表征信息。
我们提出了一种用于在线知识蒸馏的互对比学习(Mutual Contrastive Learning,MCL)框架。
互对比学习的核心思想是以在线的方式在一组网络之间进行对比分布的相互作用与通报。我们的互对比学习能够聚合跨网络的嵌入信息,并最大化两个网络之间互信息的下界。这使得每个网络都能从其他网络学习额外的对比知识,从而产生更好的特性表现,进而提拔视觉识别使命的性能。
除了最后一层之外,我们将互对比学习扩展到中心层,并通过元优化训练实行自适应层匹配机制。
在图像分类以及向视觉识别使命的迁移学习实行中表明,分层的互对比学习相较于开始进的在线知识蒸馏方法能够一连带来性能提拔。这种优势表明,分层的互对比学习能够引导网络生成更好的特性表现。
https://i-blog.csdnimg.cn/direct/9b4f3413c93d4c0bbbd1f6bf34b6ae69.png
考虑在多个网络的差别instance之间进行对比学习,属于多个网络的同一种别的样本特性靠近,属于多个网络的差别种别的样本特性推远。
https://i-blog.csdnimg.cn/direct/47e11a87260249e2bcb1cd9ca07f8fb7.png
ECCV 2022:Masked Generative Distillation
Mask生成式蒸馏(Masked Generative Distillation,MGD)示意图。我们起首随机对学生模子的特性进行Mask处理。然后,我们利用投影层迫使学生模子依据被Mask的特性生成西席模子的特性。
https://i-blog.csdnimg.cn/direct/1e19f94f7c9441978fd8d256122f7759.png
CVPRW 2021:Distill on the go: Online knowledge distillation in self-supervised learning 自监视对比损失 + 互学习KL散度损失
https://i-blog.csdnimg.cn/direct/ea6a80d2801840e9a22e1b77f6e60af6.png
自监视学习通过解决无需标注的 pretext 猜测使命来学习特性表现。对于视觉使命而言,诸如猜测旋转、解决拼图之类的 pretext 使命完全是基于输入数据创建的。然而,猜测这些已知信息有助于学习对下游使命有用的表现形式。
不过,近期的研究表明,更宽更深的模子从自监视学习中获益要比小模子更多。为解决小模子的自监视预训练题目,我们提出了 “即时蒸馏”(Distill-on-the-Go,DoGo)这一自监视学习范式,它利用单阶段在线知识蒸馏来提拔小模子的表现质量。
我们采用深度互学习策略,即两个模子相互协作学习以共同提拔彼此。具体来说,每个模子都通过自监视学习以及蒸馏进行训练,蒸馏过程会将每个模子的相似性分数的软最大概率与对等模子的相应概率进行对齐。
我们在多个基准数据集、学习目标以及架构上开展了大量实行,以展示所提方法的潜力。我们的结果表明,在存在噪声标签以及标签有限的环境下,以及在对分布外数据进行泛化时,该方法都能实现显著的性能提拔。
CVPR 2021:Multi-Scale Aligned Distillation for Low-Resolution Detection
https://i-blog.csdnimg.cn/direct/c1d7ae0d09364544b73e721d9880aa80.png
Teacher学习两种分辨率的输入,并融合为一个独立的Teacher,并引入Cross Feature-level Distillation来蒸馏给低分辨率的学生网络
https://i-blog.csdnimg.cn/direct/f0a07740629940fc99d61901845f5636.png
AAAI 2023:Curriculum Temperature for Knowledge Distillation 动态温度,课程学习
大多数现有的蒸馏方法都忽略了损失函数中温度参数的灵活作用,而是将其固定为一个超参数,只能通过低效的网格搜索来确定。
一样平常来说,温度控制着两个分布之间的差别,并且能够切实地决定蒸馏使命的难易水平。在学生模子渐渐学习的过程中,始终保持恒定的温度,即固定的使命难度水平,通常并非最优选择。
在本文中,我们提出了一种简单的基于课程学习的技术,名为知识蒸馏的课程温度(Curriculum Temperature for Knowledge Distillation,CTKD),它通过一个动态且可学习的温度来控制学生模子学习过程中的使命难度水平。
具体而言,遵照由易到难的课程学习模式,我们依据温度渐渐增加蒸馏损失,以对抗的方式进步蒸馏难度。作为一种易于使用的插件技术,课程温度知识蒸馏法能够无缝集成到现有的知识蒸馏框架中,并且只需可忽略不计的额外盘算成本就能带来普遍的性能提拔。
在 CIFAR-100、ImageNet-2012 和 MS-COCO 数据集上进行的大量实行证明白我们方法的有用性。
https://i-blog.csdnimg.cn/direct/0469ebaf46194037a35a1a67c5ecb056.png
ECCV 2022:Self-Regulated Feature Learning via Teacher-free Feature Distillation
以中心特性表现为条件的知识蒸馏往往能带来显著的性能提拔。传统的特性蒸馏框架需要额外的西席模子选择 / 训练成本以及复杂的变换,以对齐师生模子之间的特性。
为解决这一题目,我们分析了特性蒸馏中西席模子的作用,并得出了一个有趣的观察结果:额外的西席模子架构并非总是必需的。于是我们提出了 Tf-FD,一种简单却有用的无西席特性蒸馏框架,它在学生模子内部重复利用通道维度和层维度上有意义的特性,在无需额外模子的环境下提供类似西席模子的知识。
具体而言,我们的框架可细分为层内蒸馏和层间蒸馏。层内的 Tf-FD 会进行特性显著性排序,并将知识从同一层内的显著特性通报到冗余特性。
对于层间的 Tf-FD,我们致力于将嵌入在深层表现中的高层语义知识进行蒸馏,以指导浅层的训练。得益于这些自身特性之间的较小差距,Tf-FD 只需优化额外的特性模仿损失,无需复杂的变换。
此外,我们从特性正则化的角度进行了富有洞察力的讨论,以分析 Tf-FD 的原理。我们在分类和目标检测使命上开展的实行表明,我们的技术在差别模子上以较快的训练速率取得了开始进的成果。
https://i-blog.csdnimg.cn/direct/9ad1d7c7f0c348c59f1f4ceefd3390bd.png
CVPR 2022:Cross-Image Relational Knowledge Distillation for Semantic Segmentation
https://i-blog.csdnimg.cn/direct/269c7a4dec864dd3ada8b3bbc55b242b.png
当前用于语义分割的知识蒸馏(Knowledge Distillation,KD)方法通常引导学生模子去模仿西席模子从单个数据样本中生成的结构化信息。然而,它们忽略了差别图像中像素之间的全局语义关系,而这种关系对知识蒸馏来说是很有价值的。
本文提出了一种新颖的跨图像关系知识蒸馏(Cross-Image Relational KD,CIRKD)方法,该方法偏重于在整个图像之间通报结构化的像素对像素以及像素对区域的关系。其动机在于,一个良好的西席网络能够依据全局像素依赖关系构建一个结构良好的特性空间。跨图像关系知识蒸馏方法能让学生模子更好地模仿西席模子中结构化的语义关系,从而提拔分割性能。
https://i-blog.csdnimg.cn/direct/08a7345e80fe4d488fdfdd1ea2f3bfa5.png
ICCV 2021:Distilling Global and Local Logits with Densely Connected Relations
在常见的知识蒸馏中,多数图像识别模子里的对数概率(logits)是通过全局均匀池化来盘算的,随后用于学习对高级且与使命相关的知识进行编码。在这项工作中,我们解决了在这种蒸馏情境下全局对数概率转移存在的局限性。
我们指出,这种全局均匀池化方式会阻碍信息丰富的空间信息的通报,而空间信息能够提供局部知识以及输入场景中跨上下文的丰富关联信息。
为了利用这些丰富的空间信息,我们提出了一种简单且有用的对数概率蒸馏方法。我们在倒数第二层添加了一个局部空间池化层分支,云云一来,我们的方法拓展了尺度的对数概率蒸馏,使其能够学习精致的局部知识以及整体表征。
我们所提出的方法在多个图像分类数据集上,相较于开始进的方法展现出了良好的准确率提拔。我们还表明,经过我们在图像分类使命上训练得到的经过蒸馏的学生模子,能够成功应用于目标检测和语义分割使命,这一结果体现了我们方法具有较高的可迁移性。
https://i-blog.csdnimg.cn/direct/7871fb8bb0bd494d81d25aa394101f14.png
CVPR 2022:Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation
生成对抗网络(Generative Adversarial Networks,GANs)在图像到图像转换方面已经取得了显著成就。然而,由于参数目极为庞大,开始进的生成对抗网络通常存在效率低下以及内存占用量大的题目。
为应对这一挑战,本文起首从频率角度对生成对抗网络的性能进行了研究。结果显示,生成对抗网络,尤其是小型生成对抗网络,缺乏生成高质量高频信息的能力。
为解决这一题目,我们提出了一种新颖的知识蒸馏方法,称为小波知识蒸馏。小波知识蒸馏并非直接对西席模子生成的图像进行蒸馏,而是起首利用离散小波变换将图像分解为差别的频段,然后仅对高频段进行蒸馏。这样一来,学生生成对抗网络就能将更多注意力放在高频段的学习上。
实行表明,我们的方法能使 CycleGAN 实现 7.08 倍的压缩率以及 6.80 倍的加速,且几乎不会出现性能下降的环境。此外,我们还研究了鉴别器与生成器之间的关系,结果表明鉴别器的压缩能够提拔经过压缩的生成器的性能。
https://i-blog.csdnimg.cn/direct/1775690aee1d49e18ea0bf91014db55c.png
小波知识蒸馏起首将离散小波变换(Discrete Wavelet Transformation,DWT)应用于生成的图像,然后仅对高频段上的差别进行最小化处理。
IJCV 2021:CNN-Based RGB-D Salient Object Detection: Learn, Select, and Fuse
这项工作的目标是为 RGB-D 显著目标检测提供一个系统性的解决方案,该方案在一个统一的框架内处理以下三个方面的题目:模态特定表现学习、互补线索选择以及跨模态互补融合。
为了学习具有鉴别性的模态特定特性,我们提出了一种分层跨模态蒸馏方案。在该方案中,我们利用从已充分学习的源模态中得到的渐进式猜测结果,来监视新模态中的特性层次学习和推理过程。
为了更好地选择互补线索,我们构建了一个残差函数,以便自适应地融合来自配对模态的互补信息。此外,我们还构建了一种自上而下的融合结构,以实现充分的跨模态跨层级交互。
实行结果证明白所提出的跨模态蒸馏方案在从新模态中学习时的有用性、所提出的多模态融合模式在选择和融合跨模态互补信息方面的优势,以及所提出的这些计划在差别使命中的泛化能力。
https://i-blog.csdnimg.cn/direct/3be3297c77244acf9ad27f59866e573d.png
ECCV 2022:Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition
https://i-blog.csdnimg.cn/direct/b077556a6e3141beafa7ee553921d28d.png
深度学习在人脸识别基准测试中已经取得了卓越的性能表现,但在处理低分辨率(Low Resolution,LR)图像时,其性能会显著下降。
我们提出了一种注意力相似性知识蒸馏方法,该方法将从高分辨率(High Resolution,HR)网络(作为西席模子)中获取的注意力图转移到低分辨率网络(作为学生模子)中,以提拔低分辨率图像的识别性能。
受到人类能够依据从高分辨率图像中获取的先验知识来大抵判断低分辨率图像中物体所在区域这一征象的开导,我们利用余弦相似度计划了知识蒸馏损失,以使学生网络的注意力与西席网络的注意力相类似。
在多个与低分辨率人脸相关的基准测试中开展的实行证实,所提出的方法总体上提拔了低分辨率场景下的识别性能,并且仅仅通过转移经心构建的注意力图,就超越了现有的开始进成果。
ICCV 2023:From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels
TPAMI 2022:Distilling Knowledge by Mimicking Features
ICLR 2023:Norm: Knowledge distillation via n-to-one representation matching
arXiv 2022:RTMDet: An Empirical Study of Designing Real-Time Object Detectors
https://i-blog.csdnimg.cn/direct/1e01c8c3f291413e93cb772aea2951a9.png
根据样本的cls,reg,还有center损失,来盘算和定义样本的label cost进而分配label assignment
CVPR 2021:Revisiting Knowledge Distillation: An Inheritance and Exploration Framework
CVPR 2022:Structural and statistical texture knowledge distillation for semantic segmentation
https://i-blog.csdnimg.cn/direct/b074559c1192400199ddbc570e062c3c.png
定义了两种特性图,即Structural Texture Knowledge和Statistical Texture Knowledge,并分别使用L2损失来蒸馏西席和学生模子的这两种特性图。
CVPR 2023:Multi-level Logit Distillation
CVPR 2022:Knowledge Distillation with the Reused Teacher Classifier
CVPR 2023:HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models
NeurIPS 2022:Learning Efficient Vision Transformers via Fine-Grained Manifold Distillation
https://i-blog.csdnimg.cn/direct/fa902908d1c848079c6cbd24c799ea1c.png
计划了一种Manifold Distillation loss用于西席学生知识蒸馏。
起首定义manifold relation map以及基于manifold relation map的蒸馏损失Lmf
https://i-blog.csdnimg.cn/direct/84bdff5d2c154fceb69afee2046bcbdd.png
然后发现,盘算manifold relation map好坏常耗时也泯灭盘算成本。因此作者提出了解耦思想,即decouple a manifold relation map into three parts: an intra-image relation map, an inter-image relation map, and a randomly sampled relation map.
https://i-blog.csdnimg.cn/direct/685b959247164676b9576ff5a6c78f94.png
intra-image patch-level manifold distillation loss:
https://i-blog.csdnimg.cn/direct/0ba5e0f466174d259bd6e907a101075d.png
inter-image patch-level manifold distillation loss:
https://i-blog.csdnimg.cn/direct/b055dec3aa6a46c7a7a40f4811331df2.png
randomly sampled patch-level manifold distillation loss
https://i-blog.csdnimg.cn/direct/2ced06a40fcf4383befdd6031f1a9abe.png
总的训练损失:
https://i-blog.csdnimg.cn/direct/195797bdf81d4a46adbb5d26fe62c63b.png
WACV 2022:Self-Guidance: Improve Deep Neural Network Generalization via Knowledge Distillation
我们提出了自引导(Self-Guidance)方法,这是一种通过知识蒸馏来训练深度神经网络的简便方式。其基本思绪是训练子网络以使其猜测结果与完整网络的猜测相匹配,这就是所谓的 “自引导”。在 “西席 — 学生” 框架下,我们在同一个目标网络内部构建西席网络和学生网络。学生网络是随机跳过完整网络中某些部门的子网络,而西席网络就是完整网络,可被视为所有大概的学生网络的集合。
训练过程是在一个闭环中进行的:(1)前向猜测包罗生成学生猜测和西席猜测的两个阶段。(2)反向蒸馏允许知识从西席网络反向通报回学生网络。综合评估表明,我们的方法极大地进步了深度神经网络的泛化能力。实行结果证明白我们的方法在 CIFAR10、CIFAR100 数据集上的图像分类使命以及 FER - 2013 和 RAF 数据集上的面部心情识别使命中都有着卓越的表现。
https://i-blog.csdnimg.cn/direct/4dbb939ecc9944b88068ac78aa3e0a11.png
将一个网络的部门层的输出视为学生网络,完成所有层组成的部门视为西席网络,进行自蒸馏训练
CVPR 2022:Knowledge distillation: A good teacher is patient and consistent
ECCV 2022:TinyViT: Fast Pretraining Distillation for Small Vision Transformers
TNNLS 2023:Distilling a Powerful Student Model via Online Knowledge Distillation
CVPR 2023:Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images
TPAMI 2023:Quantifying the Knowledge in a DNN to Explain Knowledge Distillation for Classification
arXiv 2022 Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation
CVPR 2022:Proper Reuse of Image Classification Features Improves Object Detection
ECCV 2022:FedX: Unsupervised Federated Learning with Cross Knowledge Distillation
提出了一种联邦学习场景下的知识蒸馏方法。使用local client模子之间的对比学习损失,以及local和global client之间的对比学习损失作为蒸馏。对比学习计划到增强后的猜测对比,和差别样本之间的relation对比。
https://i-blog.csdnimg.cn/direct/43ca790d64054c1892c3e7c4069dc95b.png
https://i-blog.csdnimg.cn/direct/98c18e28dbd94b2d84248dea903951d9.png
CVPR 2023:Generalized UAV Object Detection via Frequency Domain Disentanglement
TMI 2021:Efficient Medical Image Segmentation Based on Knowledge Distillation
https://i-blog.csdnimg.cn/direct/25f4fdc8eda949ba9031abc00c48f720.png
Segmentation Loss:使用GT来监视学习模子的猜测结果。
Prediction Map Distillation:使用KL散度来对学生模子和西席模子的猜测图进行知识蒸馏。
Importance Maps Distillation:使用通道均匀加权求和的注意力机制盘算学生特性与西席特性的空间注意力,
https://i-blog.csdnimg.cn/direct/22831b3c8de94b3e94ab44db6d54f492.png
其中ϕ表现注意力机制盘算。
Region Affinity Distillation:使用GT mask盘算特性之间的relation,feature maps ε,binary label mask mi
.https://i-blog.csdnimg.cn/direct/9e271718517c4258afb8da563a63947d.png
https://i-blog.csdnimg.cn/direct/2b8f2a920bbd4a2cbcf2a0c68726ebce.png
https://i-blog.csdnimg.cn/direct/71ef547f6e044116956a78ba1cf8428d.png
https://i-blog.csdnimg.cn/direct/685c9c8910d842489122fc286a320deb.png
ICCV 2023:DiffusionDet: Diffusion Model for Object Detection
ICLR 2022:Bag of instances aggregation boosts self-supervised distillation
CVPR 2023:DistilPose: Tokenized Pose Regression With Heatmap Distillation
ICLR 2021:Seed: Self-supervised distillation for visual representation
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]