ToB企服应用市场:ToB评测及商务社交产业平台

标题: 《Few-shot Object Counting and Detection》CVPR2022 [打印本页]

作者: 忿忿的泥巴坨    时间: 2024-9-4 13:01
标题: 《Few-shot Object Counting and Detection》CVPR2022
概述

摘要: 论文提出了一个新的任务——少量样本目的计数和检测(Few-shot Object Counting and Detection, FSCD)。在这项任务中,研究者们旨在通过给定少量目的类别的示例边界框来计数和检测图像中所有目的对象。这项任务与少量样本目的计数(Few-Shot Object Counting, FSC)共享相同的监督,但除了总数之外,还必要输出对象的边界框。为了解决这一挑战,作者引入了一个新奇的两阶段训练策略和一个新奇的不确定性感知的少量样本目的检测器:Counting-DETR。前者旨在生成用于训练后者的伪Ground-Truth边界框。后者利用前者提供的伪Ground-Truth数据,但采取了必要的步骤来思量伪Ground-Truth的不完美性。为了验证所提方法在新任务上的性能,作者引入了两个新数据集:FSCD-147和FSCD-LVIS。这些数据集包含具有复杂场景、每张图像中多个对象类别以及对象形状、大小和表面的巨大变革的图像。所提出的方法在计数和检测指标上都大幅超越了从少量样本目的计数和少量样本目的检测中适应过来的非常强的基线。
拟解决的题目: 论文解决的题目是,在少量样本的环境下,怎样同时进行目的计数和边界框检测。这与以往的任务差异,由于通常目的检测和计数是分开处置惩罚的,而FSCD必要同时完成这两项任务,而且只有少量的标注样本可用。
回归函数扩展FamNet用于目的检测的FSCD的局限性。(a)该方法的处置惩罚流程:回归器以样本盒及其特征作为输入,以峰值密度位置的特征预测峰值位置的边界盒。(b)限制1:当样本与配景或密集区域表面相似时,FamNet预测的密度图质量较差。第一行是输入图像,每个图像都有几个样本,第二行是FamNet预测的相应密度图。(c)限制2:非鉴别峰值特征不能表示形状和大小有明显差异的物体。绿色框是根据在标注点处提取的特征进行预测的。

创新之处
方法



(1)Counting-DETR起首在几对点和边界框上进行训练,然后用于预测带注释的点的伪 GT 框; (2) Counting-DETR 被训练来预测对象边界框,预测目的是来自第一阶段的伪 GT 框。具体来说,输入图像起首通过 CNN+FPN 主干网络以提取其特征图。样本特征从它们的框中提取,并与特征图集成,生成样本集成的特征图。然后将该特征图作为编码器-解码器转换器的输入,以及第一阶段的注释点或第二阶段的锚点,用于远景/配景分类和边界框回归。在第二阶段,估计的不确定性被用来用新的不确定性损失来规范训练,以解释伪GT包围盒的不美满。 
2.1 Encoder-Decoder

接纳示例集成的特征图和一组查询点作为输入,预测每个查询点的边界框。
编码器:重要目的是处置惩罚输入的图像特征图,通过自注意力(Self-Attention)机制来增强特征。自注意力机制允许模型在处置惩罚图像的差异区域时能够相互参考,从而更好地明白图像内容和上下文信息。
解码器:利用编码器输出的增强特征图,并结合查询点(Query Points)来预测每个查询点对应的对象的边界框和类别。

 在训练过程中,利用焦点损失(Focal Loss)和边界框回归损失(如L1损失和GIoU损失)来优化模型的预测。这些损失函数帮助模型更正确地预测对象的类别和位置。


不确定性损失:思量到伪地面真实边界框的不完美性,引入不确定性损失来调治模型的训练,使得模型在预测不确定性较高的边界框时受到较小的损失惩罚。
2.2 两阶段训练策略

提出的Few-Shot目的检测器Counting-DETR只能对所有对象的bounding box监督进行训练。但是,我们只对几个示例进行边界框注释,所有对象的点注释作为 FSCD 的设置。因此,我们提出了一种两阶段训练策略


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4