忿忿的泥巴坨 发表于 2024-9-4 13:01:23

《Few-shot Object Counting and Detection》CVPR2022

概述

摘要: 论文提出了一个新的任务——少量样本目的计数和检测(Few-shot Object Counting and Detection, FSCD)。在这项任务中,研究者们旨在通过给定少量目的类别的示例边界框来计数和检测图像中所有目的对象。这项任务与少量样本目的计数(Few-Shot Object Counting, FSC)共享相同的监督,但除了总数之外,还必要输出对象的边界框。为了解决这一挑战,作者引入了一个新奇的两阶段训练策略和一个新奇的不确定性感知的少量样本目的检测器:Counting-DETR。前者旨在生成用于训练后者的伪Ground-Truth边界框。后者利用前者提供的伪Ground-Truth数据,但采取了必要的步骤来思量伪Ground-Truth的不完美性。为了验证所提方法在新任务上的性能,作者引入了两个新数据集:FSCD-147和FSCD-LVIS。这些数据集包含具有复杂场景、每张图像中多个对象类别以及对象形状、大小和表面的巨大变革的图像。所提出的方法在计数和检测指标上都大幅超越了从少量样本目的计数和少量样本目的检测中适应过来的非常强的基线。
拟解决的题目: 论文解决的题目是,在少量样本的环境下,怎样同时进行目的计数和边界框检测。这与以往的任务差异,由于通常目的检测和计数是分开处置惩罚的,而FSCD必要同时完成这两项任务,而且只有少量的标注样本可用。
回归函数扩展FamNet用于目的检测的FSCD的局限性。(a)该方法的处置惩罚流程:回归器以样本盒及其特征作为输入,以峰值密度位置的特征预测峰值位置的边界盒。(b)限制1:当样本与配景或密集区域表面相似时,FamNet预测的密度图质量较差。第一行是输入图像,每个图像都有几个样本,第二行是FamNet预测的相应密度图。(c)限制2:非鉴别峰值特征不能表示形状和大小有明显差异的物体。绿色框是根据在标注点处提取的特征进行预测的。
https://i-blog.csdnimg.cn/direct/e9a1b7d27ebe4d4591fcc308acf55b0f.png
创新之处:

[*]提出了一个新的任务界说,即FSCD,它要求同时进行目的计数和边界框检测。
[*]引入了两个新的数据集FSCD-147和FSCD-LVIS,这些数据集具有复杂场景和多样的对象类别。
[*]提出了一个两阶段训练策略,起首生成伪Ground-Truth边界框,然后利用这些框训练检测器。
[*]开发了一个新的不确定性感知的少量样本目的检测器Counting-DETR,它思量了伪Ground-Truth的不完美性。
方法



[*]两阶段训练策略:第一阶段,Counting-DETR被训练以生成训练图像的伪Ground-Truth边界框;第二阶段,利用生成的伪Ground-Truth边界框对Counting-DETR进行微调,以在测试图像上检测对象。
[*]Counting-DETR:这是一个基于对象检测器Anchor DETR的改进模型,它利用点特征直接预测对象边界框,并引入了不确定性估计来调治训练过程。
https://i-blog.csdnimg.cn/direct/be86607e8b2046089b70eed71e297de5.png
(1)Counting-DETR起首在几对点和边界框上进行训练,然后用于预测带注释的点的伪 GT 框; (2) Counting-DETR 被训练来预测对象边界框,预测目的是来自第一阶段的伪 GT 框。具体来说,输入图像起首通过 CNN+FPN 主干网络以提取其特征图。样本特征从它们的框中提取,并与特征图集成,生成样本集成的特征图。然后将该特征图作为编码器-解码器转换器的输入,以及第一阶段的注释点或第二阶段的锚点,用于远景/配景分类和边界框回归。在第二阶段,估计的不确定性被用来用新的不确定性损失来规范训练,以解释伪GT包围盒的不美满。 
2.1 Encoder-Decoder

接纳示例集成的特征图和一组查询点作为输入,预测每个查询点的边界框。
编码器:重要目的是处置惩罚输入的图像特征图,通过自注意力(Self-Attention)机制来增强特征。自注意力机制允许模型在处置惩罚图像的差异区域时能够相互参考,从而更好地明白图像内容和上下文信息。
解码器:利用编码器输出的增强特征图,并结合查询点(Query Points)来预测每个查询点对应的对象的边界框和类别。


[*]输入:解码器吸收来自编码器的增强特征图和一组查询点。这些查询点是2D点,代表图像中潜伏对象位置的初始猜测。
[*]交叉注意力层:解码器中的交叉注意力层允许查询点与编码器的输出特征进行交互,如许每个查询点都可以获取到全局的上下文信息。
[*]输出:解码器输出每个查询点的预测效果,包括对象的类别得分和边界框坐标。类别得分用于判断查询点位置是否存在目的对象,边界框坐标则用于精确定位对象的位置和大小。
 在训练过程中,利用焦点损失(Focal Loss)和边界框回归损失(如L1损失和GIoU损失)来优化模型的预测。这些损失函数帮助模型更正确地预测对象的类别和位置。
https://i-blog.csdnimg.cn/direct/a546aa8a81c84e18baa4a28b937449e5.png
https://i-blog.csdnimg.cn/direct/d8aad404f53c46b8955abbd094db83c9.png
不确定性损失:思量到伪地面真实边界框的不完美性,引入不确定性损失来调治模型的训练,使得模型在预测不确定性较高的边界框时受到较小的损失惩罚。
2.2 两阶段训练策略

提出的Few-Shot目的检测器Counting-DETR只能对所有对象的bounding box监督进行训练。但是,我们只对几个示例进行边界框注释,所有对象的点注释作为 FSCD 的设置。因此,我们提出了一种两阶段训练策略


[*]第一阶段,利用示例集成的特征图和示例边界框的中心作为查询点,训练编码器-解码器模型。在这个阶段,模型被训练来预测与查询点相关的边界框。
[*]第二阶段,利用第一阶段生成的伪地面真实边界框来微调模型,以提高在实际测试图像中检测和计数目的对象的性能。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 《Few-shot Object Counting and Detection》CVPR2022