qidao123.com技术社区-IT企服评测·应用市场

标题: 【深度学习】目标检测算法大全 [打印本页]

作者: 温锦文欧普厨电及净水器总代理    时间: 前天 11:08
标题: 【深度学习】目标检测算法大全
目录
一、R-CNN
1、R-CNN概述
2、R-CNN 模子总体流程
3、核心模块详解
(1)候选框天生(Selective Search)
(2)深度特性提取与微调
2.1 特性提取
2.2 网络微调(Fine-tuning)
(3)后端分类与边框回归
3.1 SVM 分类器
3.2 边框回归(BBox Regression)
4、训练与推理流程一览
5、模子性能与瓶颈
6、对后续模子的启示
二、SPPNet
1、模子动机
2、网络团体结构
3、数学原理与细节
4、训练与微调计谋
5、性能评估
6、优缺点与局限
(1)长处
(2)缺点
7、对后续模子的启示
三、FastRCNN
1、Fast R-CNN 概述
2、网络结构
3、关键技能点
4、训练与推理流程
5、优缺点分析
6、后续演进
四、FasterRCNN
1、Faster R-CNN 概述
2、团体网络结构
3、关键技能点
(1)区域建议网络(RPN)
(2)多任务联合训练
(3)RoI Pooling 与后端 Head
4、训练与推理流程
(1)训练阶段
(2)推理阶段
5、优势与挑战
(1)长处
(2)缺点
6、后续演进
五、YOLO
1、YOLO 概述
2、基础网络结构(以 YOLOv1 为例)
3、关键技能点
4、训练与推理流程
5、优缺点分析
6、后续演进与分支
六、SSD
1、模子动机
2、网络团体结构
3、关键技能点
4、训练与推理流程
5、性能与优缺点
6、后续演进
七、DETR
1、动机背景
2、团体架构概览
3、核心组件详解
(1)Object Queries
(2)注意力机制
(3)位置编码(Positional Encoding)
(4)匈牙利匹配(Hungarian Matching)
(5)Set Prediction Loss
4、训练与推理流程
5、优缺点对比
6、后续改进与演进


一、R-CNN

1、R-CNN概述

R-CNN由Ross Girshick等人在2014年提出,是首批将深度卷积神经网络引入目标检测的经典方法。它将对象检测题目分解为“候选区域天生+分类+回归”三步走流程,有效地使用了深度特性,明显提升了检测精度,但也袒露出计算效率低的题目。

2、R-CNN 模子总体流程

R-CNN 将目标检测拆分为三大阶段:
在推理时,依次执行以上三步,最终得到检测框与种别。

3、核心模块详解

(1)候选框天生(Selective Search)


      

(2)深度特性提取与微调

2.1 特性提取


2.2 网络微调(Fine-tuning)


(3)后端分类与边框回归

3.1 SVM 分类器


3.2 边框回归(BBox Regression)



4、训练与推理流程一览

阶段步骤训练1. 天生候选框;
2. 裁剪 Warp → CNN 微调;
3. 提取 fc7 特性 → 训练 SVM;
4. 用正样本训练边框回归器。推理1. 天生候选框;
2. 对每个框 Warp → CNN 前向 → 提取特性;
3. SVM 分类得分 + 回归偏移;
4. NMS 去重。
5、模子性能与瓶颈


6、对后续模子的启示




二、SPPNet

1、模子动机

传统 CNN(如 AlexNet、ZF-Net)在处置惩罚目标检测或图像检索时,必要将输入裁剪或变形到固定尺寸,才能接入全毗连层。这带来两个重要题目:
SPPNet 的核心动机便是:


2、网络团体结构

  1. 输入:任意尺寸图像
  2.    │
  3. 多层卷积 + 池化 → 特征图 F(尺寸为 H×W×C)
  4.    │
  5. ┌──────────────────────────────────────────┐
  6. │   空间金字塔池化层 SPP(F)                │
  7. │   ┌── Level 1: 1×1 划分 → 每格 max-pool  │
  8. │   ├── Level 2: 2×2 划分 → 每格 max-pool  │
  9. │   ├── Level 3: 3×3 划分 → 每格 max-pool  │
  10. │   └── Level 4: 6×6 划分 → 每格 max-pool  │
  11. └──────────────────────────────────────────┘
  12.    │
  13. 向量拼接 → 固定长度特征向量
  14.    │
  15. FC6 → FC7 → 分类 & 边框回归
复制代码



3、数学原理与细节


4、训练与微调计谋


5、性能评估


方法PASCAL VOC07 mAPGPU 推理速率R-CNN58.5% (AlexNet)≈0.5 FPSSPPNet59.2% (ZF-Net)≈8 FPSFast R-CNN66.9% (ZF-Net)≈5 FPS

6、优缺点与局限

(1)长处

(2)缺点


7、对后续模子的启示




三、FastRCNN

1、Fast R-CNN 概述

        Fast R-CNN 由 Ross Girshick 于 2015 年提出,旨在在保持高精度的同时,进一步加速 R-CNN 系列模子的检测速率。它结合了 R-CNN 和 SPPNet 的头脑,引入了 RoI Pooling 操纵,使得全部候选区域共享整图一次卷积特性,并能在网络端到端地联合训练分类和回归分支。
改进点:提出一个Rol pooling,然后整合整个模子,把CNN、SPP变换层、分类器、bbox回归几个模块一起训练。
2、网络结构


团体可分为以下几个模块(见下图示意):
  1. 输入图像─────────────────────────────────┐
  2.    │                                    │
  3. 卷积 / 池化 层(backbone,如 VGG16)
  4.    │                                  候选框
  5. 特征图 ──────┐
  6.              │                          │
  7.          RoI Pooling ───────────────────┴
  8.              │
  9.          全连接层(FC6→FC7)
  10.              │
  11.     ┌────────┴────────┐
  12.     │                 │
  13. 分类分支 (Softmax)   边框回归分支 (BBox Regression)
复制代码
3、关键技能点

4、训练与推理流程

5、优缺点分析


6、后续演进



四、FasterRCNN

1、Faster R-CNN 概述

        Faster R-CNN 由 Shaoqing Ren 等人在 2015 年提出,可看作 Fast R-CNN 与区域建议网络(RPN, Region Proposal Network)的有机结合。相比于依靠外部候选框天生(Selective Search)的 Fast R-CNN,Faster R-CNN 通过 RPN 在共享特性上及时天生高质量的候选区域,真正实现了端到端、近及时的目标检测。

2、团体网络结构




3、关键技能点

(1)区域建议网络(RPN)


(2)多任务联合训练


(3)RoI Pooling 与后端 Head



4、训练与推理流程

(1)训练阶段

(2)推理阶段


5、优势与挑战

(1)长处


(2)缺点



6、后续演进



五、YOLO

1、YOLO 概述

        YOLO 系列模子由 Joseph Redmon 等人在 2016 年初次提出,其核生理念是将目标检测视为一个单一的回归题目——从整张图像直接回归出边界框坐标和种别概率,无需候选区域天生或后续分类器,因而具有极高的推理速率。自第一代 YOLO(YOLOv1)以来,YOLO 在速率与精度的权衡上持续改进,目前已发展到 YOLOv5、YOLOX、YOLOv7 乃至 Ultralytics 等多个分支。

2、基础网络结构(以 YOLOv1 为例)

YOLOv1 网络可分为三部门:
  1. 输入:整张 RGB 图像(例如 448×448)
  2.    │
  3. 24 层卷积 + 若干池化  → 特征图(7×7×1024)
  4.    │
  5. 卷积层降维(1×1 conv) → (7×7×B*(5+C))
  6.    │
  7. 重塑 → → S × S × (B×5 + C) 输出张量
复制代码


3、关键技能点


4、训练与推理流程


5、优缺点分析



6、后续演进与分支



六、SSD

1、模子动机

SSD 于 2016 年由 Wei Liu 等人提出,旨在在保持较高检测精度的同时,实现真正的单阶段、单次前向检测。相比于两阶段方法(Faster R-CNN)和早期单阶段方法(YOLOv1/2):


2、网络团体结构


3、关键技能点


4、训练与推理流程


5、性能与优缺点


模子输入尺寸PASCAL VOC07 mAPCOCO AP@[.5:.95]推理速率(FPS@Titan X)SSD300300×30077.5%23.2%~59SSD512512×51279.5%26.8%~22

6、后续演进


七、DETR

1、动机背景

传统目标检测框架(R-CNN 系列、SSD、YOLO 等)大多依靠先验框(anchor)或候选区天生,并通过 NMS(非极大值抑制)来去重,实现复杂且多阶段的流水线训练。DETR(End-to-End Object Detection with Transformers)由 Facebook AI Research 于 2020 年提出,首创将 Transformer 架构直接应用于目标检测,实现端到端、无锚框、无 NMS 的统一检测框架。

2、团体架构概览

  1. 输入图片 → Backbone CNN → Flatten+Position Embedding → Transformer Encoder  
  2.                                            ↓  
  3.                              Transformer Decoder (object queries)  
  4.                                            ↓  
  5.                        线性头:分类分支 + 边框回归分支  
  6.                                            ↓  
  7.            Hungarian Matcher + Set Prediction Loss → 端到端优化  
复制代码

3、核心组件详解

(1)Object Queries


(2)注意力机制


(3)位置编码(Positional Encoding)


(4)匈牙利匹配(Hungarian Matching)


(5)Set Prediction Loss



4、训练与推理流程


5、优缺点对比


方面优势局限简便性端到端一体化,无需候选框、锚框、NMS 等繁琐步骤训练收敛慢,需大批量数据和更长训练全局交互Transformer 自注意力学习全局上下文,利于复杂场景下检测计算与内存开销高,尤其大分辨率/大特性图尺寸时可扩展性轻易结合多任务(如 Mask DETR、Deformable DETR、Conditional DETR 等)原始 DETR 在小目标检测、密集目标场景(人群、车流)效果欠佳推理效率无需 NMS,后处置惩罚简朴Transformer decoder 层数和 query 数量直接影响推理速率
6、后续改进与演进






免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4