半亩花草 发表于 2024-10-13 07:01:07

【论文笔记】DKTNet: Dual-Key Transformer Network for small object dete

【引用格式】:Xu S, Gu J, Hua Y, et al. Dktnet: dual-key transformer network for small object detection. Neurocomputing, 2023, 525: 29-41.
【网址】:https://cczuyiliu.github.io/pdf/DKTNet%20Dual-Key%20Transformer%20Network%20for%20small%20object%20detection.pdf
目录
一、研究背景及意义
二、办理方案
1 创新点
1.1 双键机制
1.2 通道注意力机制
1.3 卷积运算替代全毗连层
2 网络架构
2.1 双键机制
2.2 卷积计算QKV
3 Loss损失
3.1 地区发起网络损失
3.2 RoI池化层损失
三、实验结果及结论
1 消融实验
2 结论

一、研究背景及意义

    在计算机视觉领域,目的检测是一项核心使命,广泛应用于自动驾驶、智能监控、加强现实等现实场景。随着深度学习技术的快速发展,诸如Faster R-CNN、YOLO和SSD等目的检测方法取得了显著的进展。然而,小目的检测依然是一个极具挑战性的课题,特殊是在复杂场景中,如遮挡、视角远近、背景相似等问题,导致传统的目的检测模型难以在低分辨率的小目的上取得良好的表现。
    为了办理这些问题,文中提出了一种新的Transformer网络架构——DKTNet(双键Transformer网络),专门用于提升复杂场景下的小目的检测性能。通过双键策略和通道注意力机制,进步了模型对小目的的敏感程度,办理了传统检测方法中由于小目的分辨率低、特征模糊导致的漏检和错检问题;同时通过卷积操作取代传统Transformer中的全毗连层,减低了模型的复杂度,使得模型高效运行,拥有更好的实用性和可拓展性,适合在资源有限的现实环境中部署。
二、办理方案

1 创新点

1.1 双键机制

      提出了一种新的双键策略,通过同时沿着Query(Q)和Value(V)计算两个Keys(K1和K2),而不是传统的单键毗连方法。这种双键整合方法进步了Q和V之间的关联性,使得特征提取更加精准。
1.2 通道注意力机制

     接纳通道注意力机制替代传统的空间注意力机制。该方法通过关注特征图中的重要通道,加强了对关键特征的关注,并抑制了不相干或肴杂的特征。
1.3 卷积运算替代全毗连层

     引入了2D卷积和1D卷积运算,取代了传统Transformer中的全毗连层,保持了局部上下文信息,同时低落了计算复杂度。
2 网络架构

https://i-blog.csdnimg.cn/direct/0460081ef24b4292ba3e244bb1b068b3.png
    文中提出了一种名为DKTNet(Dual-Key Transformer Network)的双键变压器网络,专为复杂背景中的小物体检测使命设计。该网络的核心思想是通过双键策略和通道注意力机制来加强特征提取的能力,从而进步小物体检测的精度和鲁棒性。
    DKTNet以Faster R-CNN为底子,并联合了ResNet50和特征金字塔网络(FPN)作为主干网络来提取多标准的特征图。然后,提出的双键变压器模块进一步对这些特征进行处理,以提升目的特征的辨识能力。具体地说,双键策略通过同时计算两条特征流的Key值,加强了Query(Q)和Value(V)之间的相干性。整个网络架构中还接纳了卷积运算替代传统的全毗连运算,以保持局部上下文信息,同时低落了计算复杂度。
2.1 双键机制

https://i-blog.csdnimg.cn/direct/4ae8d01fa2b747fea11d7eb4c1df2a70.png
https://i-blog.csdnimg.cn/direct/07da0697db7d475c87d37410e97ca63a.png
    传统的Transformer通过计算一个Key来关联Query(Q)和Value(V),而DKTNet提出了双键机制,分别沿着Q和V流计算两个Keys(K1和K2),然后将这两个Keys进行整合,以进步Q和V之间的相干性。
     双键机制通过联合不同的特征流,捕捉到更多维度的信息,加强特征表达能力,特殊是针对小物体的特征细节,办理了复杂场景中小物体轻易被背景干扰的问题。

    不同于常见的空间注意力机制,DKTNet接纳通道注意力机制来处理特征图。它通过识别并加强特征图中的重要通道,抑制那些肴杂的通道。
    在小物体检测中,重要特征通道的有用提取尤为重要,通道注意力机制资助进步了对小物体特征的辨识度,使得网络可以或许更有用地关注到关键信息,忽略干扰。

https://i-blog.csdnimg.cn/direct/db2a69b782ca4ad1b65fb7df30194821.png
https://i-blog.csdnimg.cn/direct/89c0dc9d023c4389bad80f60c4a2d877.png
2.2 卷积计算QKV

https://i-blog.csdnimg.cn/direct/7fb284e58e4545bbb4b843639108f6b6.png
    传统Transformer通常接纳全毗连层来处理Q、K和V,而DKTNet则使用了2D卷积来捕捉局部细节,随后使用1D卷积进一步简化计算。
    2D卷积可以或许更好地保留图像特征的局部上下文信息,而1D卷积则大幅低落了网络的参数目和计算开销,同时保持较高的检测性能。该设计使得DKTNet在保证性能的前提下,进步了运算服从,适合资源受限的场景。
3 Loss损失

    DKTNet网络的损失函数主要基于Faster R-CNN的设计,联合了地区发起网络(RPN)和ROI池化层(RoIAlign)的输出,最终使用了两种损失函数来优化网络的分类和回归使命。这两种损失分别是分类损失(Classification Loss)和边界框回归损失(Bounding Box Regression Loss)。总损失是地区发起网络损失、RoI池化层损失两个部分的加和,用于共同优化DKTNet的目的检测性能。
https://i-blog.csdnimg.cn/direct/a58210b68da7425db8a8c44605e4105b.png


[*]LRPN是用于RPN(地区发起网络)的损失
[*]LRoI是用于目的检测和边界框调解的损失。
3.1 地区发起网络损失

    RPN负责天生大概包含目的的候选地区,并开端调解目的的边界框。RPN损失包含两部分:

[*]分类损失
    用于衡量RPN天生的候选框是否属于目的地区,使用二元交织熵损失(binary cross-entropy loss)来计算。公式如下:
https://i-blog.csdnimg.cn/direct/48ca24996c114fa9af6d4243e249db00.png


[*]https://latex.csdn.net/eq?p_%7Bi%7D是第i个候选框被猜测为目的地区的概率
[*]https://latex.csdn.net/eq?p_%7Bi%7D%5E%7B*%7D是真实标签
      2.边界框回归损失
      边界框损失Lreg用于回归猜测的目的边界框与真实边界框之间的差异,使用平滑L1损失计算:
https://i-blog.csdnimg.cn/direct/66c5ab5cada14679bc3387d4aa4f9194.png


[*]https://latex.csdn.net/eq?t_%7Bi%7D是RPN猜测的边界框参数
[*]https://latex.csdn.net/eq?t_%7Bi%7D%5E%7B*%7D是真实的边界框参数
    最终,RPN损失定义为分类损失和回归损失的加权和:
https://i-blog.csdnimg.cn/direct/a0c7fca3a4aa49fb9d4d7c1adc170655.png
3.2 RoI池化层损失

    RoI池化层将来自RPN的候选地区进一步处理,用于分类和边界框回归。RoI损失同样包含分类损失(Classification Loss)和边界框回归损失(Bounding Box Regression Loss),公式如下:
https://i-blog.csdnimg.cn/direct/e7723020328a44958871d59253fe591d.png


[*]u:当前候选框对应的真实类别标签
[*]p:Softmax分类器输出属于类别u的概率
[*]https://latex.csdn.net/eq?t%5E%7Bu%7D:表现真实边界框位置
[*]v:表现猜测的边界框位置
[*]λ:当时,λ为1,否则为0
三、实验结果及结论



[*]测试数据集:一般目的检测基准数据集PASCAL VOC 2007、安全帽佩带数据集GDUT、SHW1和SHW2,均取自真实的构筑场景,并且大部分目的安全帽在图像中都占据较小地区。
[*]硬件设置:Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz; NVIDIA TITAN-XP GPU(12GB显存)
[*]训练设置:Batch Size为2,训练20轮;使用SGD优化器,动量值设置为0.9,用于加速梯度下降并抑制局部波动,权重衰减值为5 × 10^-4,用于防止过拟合并保持模型的鲁棒性;初始学习率设置为5 × 10^-3,每三轮衰减一次,衰减因子为0.33
[*]评估指标:精确率、召回率、AP均匀精度、大目的的mAP(大于96×96像素)、中等大小目的的mAP(32×32到96×96像素之间)和小目的的mAP(小于32×32像素)
https://i-blog.csdnimg.cn/direct/44374edf946a405abe77057a88fd53e7.png
与Faster-Rcnn相比,大型目的得到了4-14%的提升,中型目的得到了7-15%的提升,小型目的得到了14-25%的提升
https://i-blog.csdnimg.cn/direct/08f95b2bf115416aa6722a35d288f0f7.png
文中提出的方法,根本都可以实现最优或者次优的精度
https://i-blog.csdnimg.cn/direct/590c48ee9dcf48eeb2066401c8d169a0.png
https://i-blog.csdnimg.cn/direct/985baf92c9f042e39fa8489b2c865ee8.png
https://i-blog.csdnimg.cn/direct/74e539610f7a440a94952af8fdb5e683.png
1 消融实验

https://i-blog.csdnimg.cn/direct/e1a3aff310b94446b47bdf1df0ec16ee.png
STL是指Swin Transformer Layer,它是一种基于Swin Transformer的模块,可以或许通过滑动窗口的方式处理图像的局部信息,同时有用聚合全局上下文信息,更适合小目的检测。
https://i-blog.csdnimg.cn/direct/bd1ec6e53aad441d90c6e9fd24f319bf.png
目的检测基准数据集PASCAL VOC 2007实验
第二、三行对比,证明确双键结构进步了性能
第三、四行对比,第四行对特征图进行了转置,以计算通道维度而非空间维度的全局自我注意力,结果有了肯定提升
Conv1D和Conv2D参数数和FLOPS分别为56.16M、45.39M和167.38G、285.18G
https://i-blog.csdnimg.cn/direct/01bde7a06e024346a37c206529e46412.png
从第二列和第三列使用双键可以减少背景对检测目的的干扰,从而进步检测精度。
第三列和第四列可以看出,使用通道式注意力捕捉特征的结果明显优于空间式注意力。
第四、五和六列可以看出,卷积取代全毗连可以使结果进一步提升
2 结论

文中提出的DKTNet(Dual-Key Transformer Network)的双键变压器网络,专门针对复杂背景中的小目的检测使命进行优化。通过引入双键机制、通道注意力机制,以及接纳卷积替代全毗连计算,DKTNet在多个数据集上展示了良好的检测性能,尤其在小目的检测中表现出色。


[*]双键机制加强了特征流中Q和V的关联性,进步了特征提取能力,特殊是在复杂背景下的小目的检测中表现出色。
[*]通道注意力机制有用选择和加强了关键特征通道,抑制了干扰特征,使模型可以或许更精确地识别小物目的。
[*]通过引入1D卷积,DKTNet低落了计算复杂度,在保持高精度的前提下提升了计算服从,适合在现实应用场景中部署。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【论文笔记】DKTNet: Dual-Key Transformer Network for small object dete