ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【论文条记】:PVswin-YOLOv8s:基于无人机的行人和车辆检测,利用改进的YO [打印本页]

作者: 郭卫东    时间: 2024-8-16 04:48
标题: 【论文条记】:PVswin-YOLOv8s:基于无人机的行人和车辆检测,利用改进的YO
 择要

在聪明城市中,有效的交通拥堵管理取决于纯熟的行人和车辆检测。无人机 (UAV) 提供了一种具有移动性、本钱效益和宽视野的解决方案,然而,优化识别模型对于降服小型和遮挡物体带来的挑衅至关重要。为了解决这些问题,我们利用YOLOv8s模型和Swin Transformer模块,并引入了PVswin-YOLOv8s模型用于基于无人机的行人和车辆检测。
起首,YOLOv8s的骨干网络通过更换末了一个C2f层举行全局特征提取,从而引入Swin Transformer模型,用于极小目标检测。
其次,为了解决漏检的挑衅,选择将 CBAM 集成到 YOLOv8s 的颈部。这种包罗涉及利用通道和空间注意力模块,因为它们可以有效地提取网络内的特征信息流。
末了,为了避免目标丢失,采用Soft-NMS来进步遮挡情况下行人和车辆检测的准确性(多个目标重叠)。Soft-NMS进步了性能,并很好地管理了重叠的边界框。所提出的网络减少了被忽视的小目标的比例,并增强了模型检测性能。
通过与差别YOLO版本(例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7)、YOLOv8变体(YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l)以及经典目标检测器(Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet)的性能比力,验证了所提出的PVswin-YOLOv8s模型的精良性。实验效果证明了PVswin-YOLOv8s模型的服从,在VisDrone2019数据集上,与基线YOLOv8s相比,均匀检测精度(mAP)进步了4.8%。
算法

难点

在无人机的车辆和行人检测范畴,集成一级和两级目标检测 (OD) 算法的趋势越来越大。但他同时存在较大的局限性,比如它们在遮挡、小物体检测和遗漏识别方面的挑衅。
在自然环境中,行人和车辆出现出多尺度结构,无人机视角通常会在配景和被遮挡的特征下捕捉小的、低对比度的元素。
基于 CNN 的检测器通常可以分为两大类,如下所示。

(通过利用大尺寸卷积核来减小输入张量通道维度来实现的)

攻克

yolov8的网络架构(了解的可以跳过)



PVswin-YOLOv8s(论文提出的模型)

YOLOv8s是一个较小的模型,提供较少的参数数目和较少的内存利用,这对于无人机受限的计算资源至关重要。
图二a所示 Swin Transformer 模块更换了 YOLOv8s 主干网中的末了一个 C2f 层。这种集成在低分辨率特征图(20 × 20)上运行,从而减少了计算负载和内存要求。它通过利用 Swin Transformer 捕获长距离依赖性和多样化当地信息的能力,解决了 YOLOv8s 在捕获全局和上下文信息方面的限定。
Swin Transformer 模块采用默认的 4 × 4 像素的补丁大小举行初始补丁嵌入,然后通过移动窗口机制动态扩展,从而有效地增加感受野大小,而不会增加计算复杂性。这种集成确保了该模型保持了 YOLOv8s 的速率和精度,同时增强了其在复杂无人机图像中检测物体的能力。
然后,将CBAM引入YOLOv8的颈部网络,利用其双通道特性改善特征信息。图二b所示。
别的,我们用Soft-NMS来取代NMS,以更好地检测重叠物体
在YOLOv8模型中,NMS用于优化行人和车辆检测的候选框,阈值均衡影响无人机场景中的精度。为了解决遮挡问题,Soft-NMS 集成提供了一种适应性强的方法,可以最大限度地进步检测效果。这种综合方法旨在最大限度地检测行人和车辆的数目和位置信息。

Swin变压器块

利用patch division module(斑块分割模块),输入图像被分割成离散的、不重叠的部门。每个patch都被视为一个“token”,其特征是通过连接其像素的原始值来创建的。本调查中利用的 4 × 4 个补丁大小时,每个patch的特征尺寸为 4 × 4 × 3 = 48。
然后,如图三a所示,线性嵌入层将原始值特征投影到恣意维度,由计划元素 C 表示。图三b描述了这种方法。为了构建 Swin 变压器,在标准变压器模块中安装了一个基于“移位窗口”(SW-MSA) 和“窗口”(W-MSA) 的改进型多头自注意 (MSA) 模块,以取代普通的 MSA 模块。其他层保持不变。该模块被两层多层感知器 (MLP) 取代,整流线性单元 (ReLU) 之间具有非线性性。在每个 MSA 模块和 MLP 层之前和之后,应用了 LayerNorm、归一化层和残差连接(渐渐下采样特征图,在多个尺度上捕捉特征,并减少在深层的计算负担
Swin Transformer Block的结构


CBAM

基于将三维特征图中的注意力机制分解为通道注意力和空间注意力,图二b显示了前馈卷积神经网络注意力模块,即卷积块注意力模块(CBAM )。
空间注意力模块应包罗在通道注意力模块之后,以到达最佳效果。这种轻量级模块可以轻松实现到任何 CNN 架构中,以举行全面培训。
通道注意力需要在每个通道内应用最大池化和均匀池化等方法,将特征图的空间维度压缩为一维向量。
CBAM的主要特点

CBAM的结构

通过引入CBAM,卷积神经网络能够更有效地捕捉关键特征,进步分类、检测等任务的性能。
Soft-NMS

Soft-NMS 对传统的 NMS 方法举行了改进,通过软性地处置惩罚重叠框来进步目标检测的性能。详细来说,它通过将重叠框的得分举行衰减,而不是直接删除重叠框,从而更好地处置惩罚目标之间的重叠情况。
算法步骤

优势

进步准确率:通过保留部门重叠框,Soft-NMS 可以减少因为过分抑制导致的漏检问题。
 处置惩罚密集目标:在目标密集的场景下,Soft-NMS 能够更好地处置惩罚目标之间的重叠问题,提拔检测性能。
实验

数据集

数据集采用VisDrone2019
VisDrone2019 数据集是一个用于无人机视觉任务的大规模数据集。它包罗了丰富的无人机拍摄图像,覆盖城市道路、停车场、校园等多种场景。主要用于目标检测、跟踪和场景理解等研究。数据集包罗丰富的标注,包罗边界框(bounding boxes)、目标种别等信息。标注数据涵盖了车辆、行人、骑行者等差别种别的目标。它的目标是推动无人机在各种环境中的视觉感知能力。
数据集下载:chaizwj/yolov8-tricks: 目标检测,采用yolov8作为基准模型,数据集采用VisDrone2019,带有自己的改进策略 (github.com)

实验效果

通过检测 精度 (P)、召回率 (R)、F1 评分、mAP0.5 和 mAP0.5:0.95 以及其他步伐来评估我们提出的 PVswin-YOLOv8s 模型的检测能力。
通过与差别YOLO版本(例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7)、YOLOv8变体(YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l)以及经典目标检测器(Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet)的性能比力,验证了所提出的PVswin-YOLOv8s模型的精良性。
 
 
 
 
 
 
同时举行消融实验证明了创新点给模型性能带来的提拔
 
 
Visdrone2019-test数据集上检测效果的比力可视化a)真值标注,(b)YOLOv5的猜测,(c)YOLOv8s的猜测,(d)增强型PVswin-YOLOv8s模型的猜测,以及(e)综合检测性能图表。此处 Count 显示对象的数目。
 
 


总结

创新点


思考


论文链接:Drones | Free Full-Text | PVswin-YOLOv8s: UAV-Based Pedestrian and Vehicle Detection for Traffic Management in Smart Cities Using Improved YOLOv8 (mdpi.com)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4