【论文条记】：PVswin-YOLOv8s：基于无人机的行人和车辆检测，利用改进的YO ...

郭卫东 · 2024-8-16 04:48:29

择要

在聪明城市中，有效的交通拥堵管理取决于纯熟的行人和车辆检测。无人机（UAV）提供了一种具有移动性、本钱效益和宽视野的解决方案，然而，优化识别模型对于降服小型和遮挡物体带来的挑衅至关重要。为了解决这些问题，我们利用YOLOv8s模型和Swin Transformer模块，并引入了PVswin-YOLOv8s模型用于基于无人机的行人和车辆检测。
起首，YOLOv8s的骨干网络通过更换末了一个C2f层举行全局特征提取，从而引入Swin Transformer模型，用于极小目标检测。
其次，为了解决漏检的挑衅，选择将 CBAM 集成到 YOLOv8s 的颈部。这种包罗涉及利用通道和空间注意力模块，因为它们可以有效地提取网络内的特征信息流。
末了，为了避免目标丢失，采用Soft-NMS来进步遮挡情况下行人和车辆检测的准确性（多个目标重叠）。Soft-NMS进步了性能，并很好地管理了重叠的边界框。所提出的网络减少了被忽视的小目标的比例，并增强了模型检测性能。
通过与差别YOLO版本（例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7）、YOLOv8变体（YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l）以及经典目标检测器（Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet）的性能比力，验证了所提出的PVswin-YOLOv8s模型的精良性。实验效果证明了PVswin-YOLOv8s模型的服从，在VisDrone2019数据集上，与基线YOLOv8s相比，均匀检测精度（mAP）进步了4.8%。
算法

难点

在无人机的车辆和行人检测范畴，集成一级和两级目标检测（OD）算法的趋势越来越大。但他同时存在较大的局限性，比如它们在遮挡、小物体检测和遗漏识别方面的挑衅。
在自然环境中，行人和车辆出现出多尺度结构，无人机视角通常会在配景和被遮挡的特征下捕捉小的、低对比度的元素。
基于 CNN 的检测器通常可以分为两大类，如下所示。

one-stage：Fully Convolutional One-Stage (FCOS) , DEtection TRansformer (DETR) , EfficientDet , Single Shot Multibox Detector (SSD) , and You Only Look Once (YOLO1-8) ;
two-stage：空间金字塔池化网络（SPPNet）、centerNet 、R-CNN family和特征金字塔网络（FPN）

（通过利用大尺寸卷积核来减小输入张量通道维度来实现的）

攻克

yolov8的网络架构（了解的可以跳过）

起首同一输入图像的大小尺寸 640 × 640。
骨干网络通过利用重复卷积从输入图像中提取特征图来创建三层特征图（80 × 80、40 × 40 和 20 × 20）。
颈部网络合并特征融合层，以有效地组合图像特征并减少信息丧失。合并过程融合了特征金字塔网络（FPN）和路径聚合网络（PANet）的独特金字塔结构。这种集成有助于将强语义特征转移到自上而下级别的特征图，利用 FPN 结构来增强信息流。末了，PAN和FPN结构的连合利用进步了颈部网络特征融合能力。
检测头用于得到最终的检测效果。
YOLOv8s 的核心元素包罗图一b 中所示的 CBS 模块（卷积、Sigmoid 加权线性单元（SiLU）激活和批量归一化（BN））、图一d 中所示的空间金字塔池化融合（SPPF）模块，以及图一c 中表示的 C2F 模块（结合了 ELAN 的特征，并受到 C3 的启发，以提供轻量级功能）。
CBS模块利用特征重用来解决梯度离散问题，从而保证了原始数据在很大程度上得到保留。
SPPF模块通过提取和融合高级特征，并通过几种最大池化方法收集一系列高级语义特征，进步了分类精度。通过采用所需的解耦头技能，YOLOv8将自己与从前的YOLO架构区分开来。
图一e显示了检测头，它由回归和分类分支构成，利用二元交叉熵（BCE）丧失举行分类，利用分布式焦点丧失（DFL）举行回归（定位）。DFL 具有效于定位和分类的独立部门，专为单级目标检测器计划，可进步检测性能

PVswin-YOLOv8s(论文提出的模型)

YOLOv8s是一个较小的模型，提供较少的参数数目和较少的内存利用，这对于无人机受限的计算资源至关重要。
图二a所示 Swin Transformer 模块更换了 YOLOv8s 主干网中的末了一个 C2f 层。这种集成在低分辨率特征图（20 × 20）上运行，从而减少了计算负载和内存要求。它通过利用 Swin Transformer 捕获长距离依赖性和多样化当地信息的能力，解决了 YOLOv8s 在捕获全局和上下文信息方面的限定。
Swin Transformer 模块采用默认的 4 × 4 像素的补丁大小举行初始补丁嵌入，然后通过移动窗口机制动态扩展，从而有效地增加感受野大小，而不会增加计算复杂性。这种集成确保了该模型保持了 YOLOv8s 的速率和精度，同时增强了其在复杂无人机图像中检测物体的能力。
然后，将CBAM引入YOLOv8的颈部网络，利用其双通道特性改善特征信息。图二b所示。
别的，我们用Soft-NMS来取代NMS，以更好地检测重叠物体
在YOLOv8模型中，NMS用于优化行人和车辆检测的候选框，阈值均衡影响无人机场景中的精度。为了解决遮挡问题，Soft-NMS 集成提供了一种适应性强的方法，可以最大限度地进步检测效果。这种综合方法旨在最大限度地检测行人和车辆的数目和位置信息。

Swin变压器块

利用patch division module（斑块分割模块），输入图像被分割成离散的、不重叠的部门。每个patch都被视为一个“token”，其特征是通过连接其像素的原始值来创建的。本调查中利用的 4 × 4 个补丁大小时，每个patch的特征尺寸为 4 × 4 × 3 = 48。
然后，如图三a所示，线性嵌入层将原始值特征投影到恣意维度，由计划元素 C 表示。图三b描述了这种方法。为了构建 Swin 变压器，在标准变压器模块中安装了一个基于“移位窗口”（SW-MSA）和“窗口”（W-MSA）的改进型多头自注意（MSA）模块，以取代普通的 MSA 模块。其他层保持不变。该模块被两层多层感知器 （MLP）取代，整流线性单元（ReLU）之间具有非线性性。在每个 MSA 模块和 MLP 层之前和之后，应用了 LayerNorm、归一化层和残差连接（渐渐下采样特征图，在多个尺度上捕捉特征，并减少在深层的计算负担）。
Swin Transformer Block的结构

补丁划分（Patch Partitioning）：将输入图像划分为非重叠的补丁。
线性嵌入（Linear Embedding）：每个补丁被线性嵌入为特征向量。
窗口自注意力（Window-Based Self-Attention）：在局部窗口内应用自注意力。
位移窗口自注意力（Shifted Window Self-Attention）：在下一个块中对窗口举行位移，以确保跨窗口的信息交互。
MLP和归一化（MLP and Normalization）：每个注意力输出后都经过层归一化和MLP块。

CBAM

基于将三维特征图中的注意力机制分解为通道注意力和空间注意力，图二b显示了前馈卷积神经网络注意力模块，即卷积块注意力模块（CBAM ）。
空间注意力模块应包罗在通道注意力模块之后，以到达最佳效果。这种轻量级模块可以轻松实现到任何 CNN 架构中，以举行全面培训。
通道注意力需要在每个通道内应用最大池化和均匀池化等方法，将特征图的空间维度压缩为一维向量。
CBAM的主要特点

通道注意力（Channel Attention）：通道注意力模块通过自适应地调整特征图中差别通道的重要性来提拔特征表示能力。它利用全局均匀池化和全局最大池化天生通道权重，并通过一个共享的MLP（多层感知机）来计算通道注意力权重。
空间注意力（Spatial Attention）：空间注意力模块通过关注特征图的差别空间位置来进步特征表示的空间位置能力。它起首对通道维度举行池化（全局均匀池化和全局最大池化），然后通过一个卷积层天生空间注意力图，从而夸大重要的空间位置。
模块结构：CBAM将通道注意力和空间注意力模块串联利用。起首应用通道注意力模块对输入特征图举行加权调整，然后应用空间注意力模块进一步强化特定的空间地区。

CBAM的结构

输入特征图：起首输入到CBAM模块。
通道注意力：对输入特征图举行通道维度的加权。
空间注意力：对通道注意力输出的特征图举行空间维度的加权。
输出特征图：经过加权后的特征图作为模块的输出。

通过引入CBAM，卷积神经网络能够更有效地捕捉关键特征，进步分类、检测等任务的性能。
Soft-NMS

Soft-NMS 对传统的 NMS 方法举行了改进，通过软性地处置惩罚重叠框来进步目标检测的性能。详细来说，它通过将重叠框的得分举行衰减，而不是直接删除重叠框，从而更好地处置惩罚目标之间的重叠情况。
算法步骤

排序：起首，对所有检测框按照得分从高到低排序。
逐个处置惩罚：从得分最高的检测框开始处置惩罚，每次选择一个检测框作为当前的“参考框”。
计算重叠度：对于每个参考框，计算其他所有框与其的重叠度（通常利用 IOU，Intersection Over Union）。
得分衰减：对重叠度超过设定阈值的检测框，根据它们与参考框的重叠度对它们的得分举行衰减（通常是通过指数衰减函数）。
框筛选：更新后的得分低于设定的阈值的框将被移除。此过程重复直到所有检测框都处置惩罚完成。

优势

进步准确率：通过保留部门重叠框，Soft-NMS 可以减少因为过分抑制导致的漏检问题。
处置惩罚密集目标：在目标密集的场景下，Soft-NMS 能够更好地处置惩罚目标之间的重叠问题，提拔检测性能。
实验

数据集

数据集采用VisDrone2019
VisDrone2019 数据集是一个用于无人机视觉任务的大规模数据集。它包罗了丰富的无人机拍摄图像，覆盖城市道路、停车场、校园等多种场景。主要用于目标检测、跟踪和场景理解等研究。数据集包罗丰富的标注，包罗边界框（bounding boxes）、目标种别等信息。标注数据涵盖了车辆、行人、骑行者等差别种别的目标。它的目标是推动无人机在各种环境中的视觉感知能力。
数据集下载：chaizwj/yolov8-tricks: 目标检测，采用yolov8作为基准模型，数据集采用VisDrone2019，带有自己的改进策略 (github.com)

实验效果

通过检测精度（P）、召回率（R）、F1 评分、mAP0.5 和 mAP0.5：0.95 以及其他步伐来评估我们提出的 PVswin-YOLOv8s 模型的检测能力。
通过与差别YOLO版本（例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7）、YOLOv8变体（YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l）以及经典目标检测器（Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet）的性能比力，验证了所提出的PVswin-YOLOv8s模型的精良性。

同时举行消融实验证明了创新点给模型性能带来的提拔

Visdrone2019-test数据集上检测效果的比力可视化a)真值标注，(b)YOLOv5的猜测，(c)YOLOv8s的猜测，(d)增强型PVswin-YOLOv8s模型的猜测，以及(e)综合检测性能图表。此处 Count 显示对象的数目。

总结

创新点

PVswin-YOLOv8s采用了Swin Transformer、CBAM和Soft-NMS等多种先进技能，以进步检测性能。
在网络结构方面，PVswin-YOLOv8s利用了Swin Transformer更换YOLOv8s中的末了一层C2f层，以捕捉长距离依赖关系和多样化当地信息。
同时，在颈部网络中加入了CBAM模块，以增强特征信息流的提取能力同时解决漏检问题。
末了，利用Soft-NMS取代NMS，以解决多个物体重叠的问题

思考

尽管PVswin-YOLOv8s在行人和车辆检测任务中表现精良，但在识别极小目标方面（比如对于自行车和三轮车）的准确性仍有待进步。
优化模型的准确性，同时均衡资源消耗，以实现全面的模型增强。

论文链接：Drones | Free Full-Text | PVswin-YOLOv8s: UAV-Based Pedestrian and Vehicle Detection for Traffic Management in Smart Cities Using Improved YOLOv8 (mdpi.com)

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【论文条记】：PVswin-YOLOv8s：基于无人机的行人和车辆检测，利用改进的YO ...

0 个回复

快速回复

楼主热帖

标签云