一、本文介绍
本文给大家带来的是YOLO系列家族的最新成员——YOLOv12的介绍,YOLOv12的论文标题是《YOLOv12: Attention-Centric Real-Time Object Detectors》其标题翻译过来就是YOLOv12:基于留意力机制的实时物体检测器,这是YOLO系列唯逐一款以留意立机制为核心的检测器的检测器(YOLO系列第一次引入留意力机制是YOLOv10引入的PSA机制,YOLOv11在根本上进行了改进引入了C2PSA机制,在此之前没有引用过留意力机制),YOLOv12的核心留意力机制名字是A2,读者在实际使用中将其嵌入到了C2f中称之为A2C2f(后面会详细的分析这一结构,包括网络结构图),下面的图片为手绘的yolov12网络结构图。
专栏链接:YOLOv12有用涨点专栏 | 包含卷积、主干、检测头、留意力机制、Neck上百种创新机制
目次
一、本文介绍
二、论文分析
2.1 Introduction/介绍
2.2 Related Work/相干工作
2.2.1 实时目的检测器/Real-time Object Detectors
2.2.2 高效视觉变更器/Efficient Vision Transformers.
2.3 Approach(重点介绍,重点看)
2.3.1 Efficiency Analysis/效率分析
2.3.2 Area Attention/区域留意力
2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络(R-ELAN)
2.3.4 ArchitecturalImprovements/架构改进
2.4 Experiment/实行
2.4.1 Experimental Setup/实行设置
2.4.2 Comparison with State-of-the-arts/与最新方法的比较
2.4.3 Ablation Studies/溶解研究
2.4.4 SpeedComparison/速率比较
2.4.5 Diagnosis&Visualization/诊断与可视化
2.5 Conclusion/结论
2.6 Limitations/限定
2.7 More Details/更多细节
三、全文总结
二、论文分析
官方论文地址: YOLOv12的论文链接点击此处即可跳转
官方代码地址: YOLOv12的代码链接点击此处即可跳转
2.1 Introduction/介绍
原文翻译:实时目的检测因其低延迟特性而一直备受关注,这为实际应用提供了巨大的便利。在这一范畴,YOLO系列有用地平衡了延迟和准确性,成为了该范畴的主导者。只管YOLO的改进主要会合在丧失函数、标签分配等方面,网络架构计划仍然是一个至关重要的研究方向。只管以留意力为核心的视觉Transformer(ViT)架构已被证明在建模本事上具有更强的上风,甚至在小规模模子中也体现优秀,但大多数架构计划仍然主要会合在CNN上。
造成这种情况的主要原因是留意力机制的低效,主要来源于两个因素:盘算复杂度的二次增长和留意力机制中的内存访问操作低效(后者是FlashAttention所要解决的主要问题)。因此,在雷同的盘算预算下,基于CNN的架构比基于留意力的架构快约莫3倍,这明显限定了在YOLO体系中接纳留意力机制的可能性,因为在YOLO中高效的推理速率至关重要。
本文旨在解决这些挑战,并进一步构建一个以留意力为核心的YOLO框架——YOLOv12。我们提出了三个关键的改进。首先,我们提出了一种简朴而高效的区域留意力模块(A2),该模块通过非常简朴的方式保持较大的感受野,同时低落了留意力盘算的复杂度,从而进步了速率。其次,我们引入了残差高效层聚合网络(R-ELAN),以解决留意力引入的优化挑战(主要是大规模模子)。R-ELAN在原始ELAN的根本上引入了两个改进:(i)基于缩放技能的块级残差计划,和(ii)重新计划的特征聚合方法。第三,我们对传统的留意力架构进行了改进,以顺应YOLO体系。我们对传统的留意力架构进行了升级,包括:引入FlashAttention来解决留意力的内存访问问题,去除如位置编码等计划,以使模子更快且简洁,调整MLP比率从4到1.2,以平衡留意力和前馈网络之间的盘算,镌汰堆叠块的深度以促进优化,并尽可能多地使用卷积算子来发挥其盘算效率。
基于上述计划,我们开发了一个新的实时检测器家族,包括五种模子规模:YOLOv12-N、S、M、L和X。我们在标准目的检测基准上进行了大量实行,遵循YOLOv11的方案,没有使用额外的本事,结果表明,YOLOv12在延迟-准确性和FLOPs-准确性权衡方面,相较于先前盛行的模子,在这些标准上提供了明显的改进。例如,YOLOv12-N在推理速率更快的同时,达到了40.6%的mAP,比YOLOv10-N高出2.1%的mAP,比YOLOv11-N高出1.2%的mAP,且速率相当。这个上风在其他规模的模子中也得到了保持。
与RT-DETR-R18 / RT-DETRv2-R18相比,YOLOv12-S进步了1.5%/0.1%的mAP,而且在延迟速率上快了42%/42%,只需其盘算量的36%/36%,参数目的45%/45%。
总的来说,YOLOv12的贡献有两个方面:1)它创建了一个以留意力为核心、简朴而高效的YOLO框架,通过方法上的创新和架构上的改进,打破了CNN模子在YOLO系列中的主导职位。2)YOLOv12在没有依靠如预练习等额外技能的情况下,达到了最先辈的结果,且推理速率快、检测精度高,展示了其潜力。
个人总结: YOLOv12的主要创新在于乐成地将留意力机制与YOLO架构团结(论文的创新点,其实这也是绝大多数改进的作者在做的事情,大家都可以这么写),降服了传统留意力机制在实时性和盘算效率方面的不足(原文中写的是速率雷同,实际测试要慢一些相对于之前的系列)。引入区域留意力模块(A2,后面我会详细分析)和残差高效层聚合网络(R-ELAN,我理解的就是yolov11的主干结构),其实YOLOv12引入留意力机制肯定会造成一定的不稳定性,可能会导致在某些数据据效果很好有些数据集效果很差,但这给改进的作者留下了许多的改进空间,其次YOLOv12去除了SPPF,因为其和留意力机制的作用有些雷同起到加快练习的作用。
2.2 Related Work/相干工作
2.2.1 实时目的检测器/Real-time Object Detectors
原文翻译:实时目的检测器由于其明显的实际应用代价,一直受到研究界的关注。YOLO系列已成为实时目的检测的领先框架。早期的YOLO体系主要从模子计划角度为YOLO系列奠基了框架根本。YOLOv4和YOLOv5在此根本上加入了CSPNet、数据增强和多标准特征。YOLOv6进一步通过在主干和颈部引入BiC和SimCSPSPPF模块,并辅以锚点辅助练习,进一步推动了框架的发展。YOLOv7引入了EELAN(高效层聚合网络)以改善梯度流,并增长了多种免费技能,同时YOLOv8集成了高效的C2f模块以增强特征提取。在最近的版本中,YOLOv9引入了GELAN进行架构优化,并接纳PGI方法进行练习改进,而YOLOv10则应用了不依靠NMS的练习和双重分配以进步效率。YOLOv11进一步通过接纳C3K2模块(GELAN的一个特定版本)和轻量级深度可分离卷积,在检测头部镌汰延迟并进步了精度。最近,RT-DETR提出了一种端到端的目的检测方法,通过计划高效的编码器和最小不确定性的查询选择机制,改进了传统的端到端检测器以满足实时要求。RT-DETRv2通过免费技能进一步提拔了性能。与YOLO系列不同,本研究旨在构建一个以留意力机制为核心的YOLO框架,使用留意力机制的上风。
个人总结:主要介绍了YOLO系列的一些发展没有什么好说的.
2.2.2 高效视觉变更器/Efficient Vision Transformers.
原文翻译:
低落全局自留意力的盘算本钱对于在下游使命中有用应用视觉变更器至关重要。PVT通过多分辨率阶段和下采样特征来解决这一问题。Swin Transformer将自留意力限定在局部窗口内,并调整窗口分区样式,以连接不重叠的窗口,平衡了通讯需求与内存和盘算的需求。其他方法如轴向自留意力和十字交叉留意力则在程度和垂直窗口内盘算留意力。CSWin Transformer在此根本上引入了交叉形状窗口自留意力,在程度和垂直条带中并行盘算留意力。此外,像局部-全局关系的工作进一步进步了效率,镌汰了对全局自留意力的依靠。Fast-iTPN通过令牌迁移和令牌聚合机制提拔了下游使命的推理速率。一些方法使用线性留意力来镌汰留意力的复杂性。只管基于Mamba的视觉模子旨在实现线性复杂度,但它们在实时速率方面仍然存在不足。FlashAttention辨认出导致留意力盘算低效的高带宽内存瓶颈,并通过I/O优化解决这些问题,镌汰内存访问,进步盘算效率。在本研究中,我们摒弃了复杂计划,提出了一种简朴的区域留意力机制来镌汰留意力的复杂性。此外,我们还接纳了FlashAttention来降服留意力机制本身的内存访问问题。
个人总结:主要介绍了Transformer等模子的发展情况(雷同有CSWin Transformer,RepViT)
2.3 Approach(重点介绍,重点看)
2.3.1 Efficiency Analysis/效率分析
原文翻译:留意力机制在捕捉全局依靠关系和促进自然语言处理以及盘算机视觉使命方面具有很高的效能。然而,与卷积神经网络(CNN)相比,留意力机制固有的盘算速率较慢,主要由以下两个因素导致:
- 复杂度:自留意力操作的盘算复杂度随着输入序列长度L的平方增长。具体来说,对于一个长度为L、特征维度为d的输入序列,盘算留意力矩阵须要O(L²d)的操作,因为每个token都与其他token进行交互。相比之下,CNN中的卷积操作的复杂度是线性增长的,即O(kLd),其中k为卷积核的巨细,通常远小于L。因此,自留意力机制在面临大尺寸输入(如高分辨率图像或长序列)时,盘算开销变得不可接受。
- 盘算效率:第二个重要因素是,留意力盘算过程中的内存访问模式较为低效。具体而言,在自留意力过程中,须要将中心盘算结果(如留意力图QKT和softmax图,巨细为L×L)从高速GPU内存(盘算的实际位置)存储到高带宽GPU内存中,并在盘算过程中读取这些数据。而前者的读写速率比后者快10倍以上,导致明显的内存访问开销,增长了总的盘算时间。此外,留意力机制中的内存访问模式较为不规则,相比之下,CNN使用结构化且局部化的内存访问方式,可以有用地进行内存缓存,镌汰延迟。
这两个因素——二次盘算复杂度和低效的内存访问模式,使得留意力机制在实时或资源受限的场景中比CNN慢。因此,解决这些问题已成为研究中的一个关键方向,许多方法(如希奇留意力机制和内存高效近似方法)致力于缓解二次扩展的问题。
个人总结:文章中提出了留意力机制的盘算复杂度和内存访问效率是在实时应用中的两大瓶颈。自留意力的盘算复杂度随着输入序列长度的平方增长,而内存访问模式的不规则性使得其在处理大规模数据时效率低下。与卷积神经网络(CNN)相比,CNN的盘算复杂度和内存访问效率更高,这使得其在资源有限和实时处理场景中更具上风。
这段话作者要表达的意思是:要提拔留意力机制在实时检测中的应用,将来的研究可以重点优化盘算复杂度,探索更加高效的局部留意力机制或希奇留意力机制(全局留意力机制其实更适适时间序列范畴,在图像这种高复杂度的部留意力机制或希奇留意力机制才是将来研究方向),大家也知道作者接下来要分析什么了。
2.3.2 Area Attention/区域留意力
原文翻译:镌汰传统留意力盘算本钱的一个简朴方法是接纳线性留意力机制,这将传统留意力的复杂度从二次降至线性。对于一个特征图f,维度为(n, h, d),其中n为tokens的数目,h为头数,d为头的巨细,线性留意力将复杂度从2n²hd镌汰到2nhd²,镌汰了盘算本钱,因为n > d。然而,线性留意力在镌汰全局依靠性、稳定性和分布敏感性方面存在问题。此外,由于低秩瓶颈,当输入分辨率为640×640时,线性留意力对YOLO的加快效果有限。
另一种有用镌汰复杂度的方法是局部留意力机制(如Shift Window、十字交叉留意力和轴向留意力),如图2所示,它将全局留意力转换为局部留意力,从而低落盘算本钱。然而,特征图的窗口划分可能引入额外开销或镌汰感受野,影响速率和精度。本研究提出了一种简朴而高效的区域留意力模块。如图2所示,分辨率为(H, W)的特征图被划分为l个巨细为(H/l, W)或(H, W/l)的片段。该方法消除了显式的窗口划分,仅需进行简朴的重塑操作,从而进步了速率。我们将l的默认值设为4,只管镌汰了感受野至原始的1/4,但仍然保持了较大的感受野。通过这种方法,留意力机制的盘算本钱从2n²hd低落至1/2n²hd。只管复杂度依然是n²,但当n固定为640时,这种计划仍充足高效,满足YOLO体系的实时要求。
个人总结:这段其实大家前面细致阅读有一定根本就能知道什么意思,它提出A2留意力机制是一种区域留意力机制,但是我们将上图中的图四和图三对比可以看出,所谓的Area attention就是将Axial attention留意的区域扩大了四倍,这样做的缺点就是速率会变慢这是肯定(我实测在我目前的显卡上yolov11达到了250帧,而yolov12仅有180帧,我测试的是pt权重的推理速率)。
2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络(R-ELAN)
原文翻译:高效层聚合网络(ELAN)旨在改善特征聚合。如图3(b)所示,ELAN将过渡层(1×1卷积)的输出拆分,颠末多个模块处理后再拼接,末了应用另一个过渡层进行维度对齐。然而,如[57]所分析,这种架构可能引入不稳定性。我们以为,这种计划会导致梯度壅闭,且缺乏输入到输出的残差连接。此外,由于留意力机制引入的优化挑战,L型和X型模子在使用Adam或AdamW优化器时往往无法收敛或保持不稳定。
为相识决这个问题,我们提出了残差高效层聚合网络(R-ELAN)。与ELAN不同,我们在整个模块中引入了一个从输入到输出的残差快捷连接,并添加了一个缩放因子(默以为0.01)。该计划雷同于层缩放,用于构建深度视觉变更器。然而,应用层缩放到每个区域留意力并不能解决优化问题,而且会导致延迟增长。这表明,留意力机制的引入并非收敛问题的唯一原因,实际上,正是ELAN架构本身导致了问题,验证了我们R-ELAN计划的合理性。
我们还计划了一种新的聚合方法,如图3(d)所示。原始ELAN层通过先将输入传递至过渡层,再拆分为两部分,进一步处理后拼接输出。相较之下,我们的计划使用过渡层调整通道维度,并天生一个单一的特征图,随后经事后续模块处理,再进行拼接,形成瓶颈结构。该方法不仅保留了原始的特征聚合本事,还低落了盘算本钱和参数/内存使用。
个人总结:这一段主要介绍了YOLOv12的唯一改进组件A2C2f,也就是上图的(d),我们可以观察一下下面的YOLOv11和YOLOv12的yaml文件对比图,首先网络数据方面可以看到YOLOv12的网络层数相比于YOLOv11增长了150层,其余的算是基本保持不变,其余就是用A2C2f替换C3k2(后三个替换C3k2的A2C2f我根据代码发现运行的其实没有使用到A2留意力机制,不知道作者为何改名为A2C2f),总共有五个替换,前两个可以看到参数目第二个参数被设置为True(实际改进调用了A2的只有这两个起效果,而fps还要低落百分之三十左右在pt权重下.),后三个第二个参数被设置为False,如果第二个参数被设置为False,A2C2f的网络结构图中的A2应该被替换为C3k.
下面的图片为我手绘的A2C2f的网络结构图,绿色框部分表示为可选选项,仅在YOLOv12l和YOLOv12x版本进行,其余版本则忽略绿色部分.
2.3.4 ArchitecturalImprovements/架构改进
原文翻译:在这一部分,我们将介绍团体架构及一些相较于传统留意力机制的改进。许多以留意力为核心的视觉变更器接纳的是平面风格架构,而我们保留了YOLO体系的条理计划,并证明这一计划的须要性。我们移除了最近版本(如YOLOv4、YOLOv5等)在骨干网末了阶段堆叠三个模块的计划(三个堆叠的模块应该指的是SPPF),而仅保留了一个R-ELAN块,从而镌汰了模块数目并有助于优化。我们继续了YOLOv11的前两阶段骨干网,并未使用我们提出的R-ELAN。
此外,我们还对传统留意力机制的多个默认设置进行了修改,以更好地顺应YOLO体系。这些修改包括将MLP比率从4调整为1.2(对于N型/S型/M型模子为2)(这一段代码中确实体现了),以更好地分配盘算资源,从而进步性能;使用nn.Conv2d+BN取代nn.Linear+LN,充实使用卷积算子的效率;去除位置编码;引入大规模可分离卷积(7×7),帮助区域留意力感知位置信息(这两个构建其实就是A2的全部内容了)。这些改进的有用性将在第4.5节中验证。
上图是YOLOv12的A2代码界说部分,末了一行就是提到的7x7可分离Conv.
2.4 Experiment/实行
本节分为四个部分:实行设置、与盛行方法的体系比较、溶解研究以验证我们的方法,以及通过可视化进一步探索YOLOv12。
2.4.1 Experimental Setup/实行设置
原文翻译:我们在MSCOCO 2017数据集上验证了所提方法。YOLOv12系列包括5个变体:YOLOv12-N、YOLOv12-S、YOLOv12-M、YOLOv12-L和YOLOv12-X。全部模子均使用SGD优化器进行600轮练习,初始学习率为0.01,与YOLOv11同等。我们接纳线性学习率衰减策略,并对前3轮进行线性预热。按照中的方法,在T4 GPU上使用TensorRT FP16测试全部模子的延迟。
基线我们选择YOLOv11作为基线模子,模子缩放策略也与YOLOv11保持同等。我们使用了其中提出的C3K2模块(即GELAN的一个特殊案例)。我们没有在YOLOv11之外使用任何额外的本事。
2.4.2 Comparison with State-of-the-arts/与最新方法的比较
原文翻译:我们在表1中展示了YOLOv12与其他盛行实时检测器的性能比较。
对于N标准模子,YOLOv12-N分别比YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N和YOLOv11进步了3.6%、3.3%、2.1%和1.2%的mAP,同时盘算量和参数相似或更少,并实现了1.64 ms/图像的快速延迟。
对于S标准模子,YOLOv12-S具有21.4G的FLOPs和9.3M的参数,达到了48.0的mAP,延迟为2.61 ms/图像。相比YOLOv8-S、YOLOv9-S、YOLOv10-S和YOLOv11-S,YOLOv12-S分别进步了3.0%、1.2%、1.7%和1.1%的mAP,同时保持了雷同或更少的盘算量。与端到端检测器RT-DETR-R18 / RT-DETRv2-R18相比,YOLOv12-S在推理速率上体现优秀,盘算本钱和参数更少。
对于M标准模子,YOLOv12-M具有67.5G的FLOPs和20.2M的参数,达到了52.5的mAP性能和4.86 ms/图像的速率。与Gold YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10、YOLOv11以及RT-DETR-R34 / RT-DETRv2-R34相比,YOLOv12-M体现良好。
对于L标准模子,YOLOv12-L甚至凌驾了YOLOv10-L,FLOPs镌汰了31.4G。YOLOv12-L比YOLOv11进步了0.4%的mAP,FLOPs和参数相当。YOLOv12-L还在更快的速率下超越了RT-DETR-R50 / RT-DETRv2-R50,FLOPs镌汰了34.6%,参数镌汰了37.1%。
对于X标准模子,YOLOv12-X明显凌驾了YOLOv10-X / YOLOv11-X,分别进步了0.8%和0.6%的mAP,同时保持了相似的速率(划重点真的么?)、FLOPs和参数。YOLOv12-X再次在更快的速率、FLOPs镌汰(23.4%)和参数镌汰(22.2%)的情况下超越了RT-DETR-R101 / RT-DETRv2-R101。
特殊地,如果使用FP32精度评估L标准和X标准模子(须要将模子单独以FP32格式生存),YOLOv12将进步约0.2%的mAP。这意味着YOLOv12-L / X的mAP分别为33.9% / 55.4%。
2.4.3 Ablation Studies/溶解研究
原文翻译:
- R-ELAN
表2评估了所提的残差高效层网络(R-ELAN)在YOLOv12-N/L/X模子中的效果。结果揭示了两个关键发现:(i) 对于小模子(如YOLOv12-N),残差连接不会影响收敛性,但会低落性能。相比之下,对于较大的模子(如YOLOv12-L/X),它们对于稳定练习至关重要。特殊地,YOLOv12-X须要一个最小的缩放因子(0.01)以确保收敛性。(ii) 提出的特征集成方法有用地低落了模子的复杂性(包括FLOPs和参数),同时保持了相似的性能,只有稍微的降落。
- Area Attention
我们进行了溶解实行来验证区域留意力的有用性,结果如表3所示。评估在YOLOv12-N/S/X模子上进行,并丈量了在GPU(CUDA)和CPU上的推理速率。CUDA结果是在RTX3080和A5000上得到的,而CPU性能在Intel Core i7-10700K @3.80GHz上丈量。结果显示,使用区域留意力明显加快了推理速率。例如,在RTX3080上,YOLOv12-N在FP32下镌汰了0.7ms的推理时间。这一性能提拔在不同模子和硬件设置中都得到了验证。我们在此实行中没有使用FlashAttention,因为它会明显镌汰速率差别。
2.4.4 SpeedComparison/速率比较
原文翻译:表4展示了不同GPU上的推理速率对比,评估了YOLOv9、YOLOv10、YOLOv11和我们的YOLOv12在RTX3080、RTX A5000和RTX A6000上的FP32和FP16精度下的体现。为了确保同等性,全部结果都在雷同硬件上得到,YOLOv9和YOLOv10的评估使用了Ultralytics的集成代码库。结果表明,YOLOv12在推理速率上明显优于YOLOv9,而且与YOLOv10和YOLOv11保持同等。例如,在RTX3080上,YOLOv9的推理时间为2.4ms(FP32)和1.5ms(FP16),而YOLOv12-N分别为1.7ms(FP32)和1.1ms(FP16)。其他设置也呈现出雷同趋势。
图4展示了额外的比较。左侧子图展示了与盛行方法的准确度-参数权衡比较,其中YOLOv12在全部对手中占据主导职位,甚至凌驾了YOLOv10,这一版本在参数上明显更少,显现了YOLOv12的效能。右侧子图则展示了YOLOv12与之前版本在CPU上的推理延迟比较(全部结果均在Intel Core i7-10700K @3.80GHz上丈量)。如图所示,YOLOv12凌驾了其他对手,显现了其在各种硬件平台上的高效性。
2.4.5 Diagnosis&Visualization/诊断与可视化
原文翻译:我们在表5a到5h中诊断了YOLOv12的计划。除非特殊说明,否则我们对YOLOv12-N进行了这些诊断,使用600轮练习从头开始。
- 留意力实现:表5a
我们检查了两种留意力实现方法。基于卷积的方法比基于线性的方法更快,因为卷积的盘算效率更高。此外,我们还探索了两种归一化方法(层归一化(LN)和批归一化(BN)),发现结果表明:只管层归一化在留意力机制中常用,但当与卷积一起使用时,其体现不如批归一化。值得留意的是,这一发现与PSA模块中的计划同等。
- 条理计划:表5b
与Mask R-CNN等其他检测体系不同,YOLOv12显现了不同的行为。当使用纯视觉Transformer(N/A)时,检测器的性能明显降落,仅达38.3%的mAP。稍微调整,如省略第一阶段(S1)或第四阶段(S4),通过调整特征维度保持雷同的FLOPs,会导致稍微的性能降落(分别降落0.5%和0.8% mAP)。与以往的YOLO模子同等,条理计划仍然是最有用的,提供了YOLOv12最好的性能。
- 练习轮数:表5c
我们检查了练习轮数厘革对性能的影响(从头开始练习)。只管一些现有的YOLO检测器在约莫500轮练习后可以或许得到最佳结果,YOLOv12则须要更长的练习时间(约莫600轮)才能达到最佳性能,而且使用了与YOLOv11雷同的设置。
- 位置感知器:表5d
在留意力机制中,我们使用了可分离卷积和较大内核对留意力值v进行处理,并将其输出加到v@attn中。我们将这个组件称为位置感知器,因为卷积的平滑效果保留了图像像素的原始位置,帮助留意力机制感知位置信息。随着卷积核尺寸的增长,性能有所提拔,但速率逐渐低落。当卷积核尺寸达到9×9时,减慢变得明显。因此,我们将7×7作为默认的卷积核尺寸。
- 位置嵌入:表5e
我们检查了在大多数基于留意力的模子中常用的位置嵌入(RPE:相对位置嵌入;APE:绝对位置编码)对性能的影响。结果表明,最佳的设置是没有任何位置嵌入,这带来了更简洁的架构和更快的推理延迟。
- 区域留意力:表5f
在此表中,我们默认使用了FlashAttention技能。虽然区域留意力机制增长了盘算复杂性(从而带来性能提拔),但所导致的减慢保持在最小范围内。为了进一步验证区域留意力的有用性,请参见表3。
- MLP比率:表5g
在传统的视觉Transformer中,留意力模块中的MLP比率通常设置为4.0。然而,在YOLOv12中,我们观察到不同的行为。调整MLP比率会影响模子的巨细,因此我们调整了特征维度以保持团体模子的同等性。特殊地,YOLOv12在MLP比率为1.2时取得了更好的性能,偏离了传统做法。这一调整将盘算负载更多地转移到留意力机制上,突显了区域留意力的重要性。
- FlashAttention:表5h
此表验证了FlashAttention在YOLOv12中的作用。结果表明,FlashAttention使YOLOv12-N加快了约0.3ms,YOLOv12-S加快了约0.4ms,而没有其他开销。

热力图可视化:图5比较了YOLOv12与盛行的YOLOv10和YOLOv11的热图。这些热图提取自X标准模子的第三阶段骨干网络,突出显示了模子激活的区域,反映了其目的感知本事。如图所示,与YOLOv10和YOLOv11相比,YOLOv12天生了更清楚的目的轮廓和更准确的远景激活,表明其感知本事有所改善。我们表明以为,这一改进来自区域留意力机制,其感受野大于卷积网络,因此可以或许更好地捕捉团体上下文,进而提拔远景激活的精度。我们信任,这一特性赋予了YOLOv12在性能上的上风。
2.5 Conclusion/结论
原文翻译:本研究介绍了YOLOv12,它乐成地将传统上被以为对于实时需求效率较低的留意力机制引入YOLO框架,实现了最先辈的延迟-准确度权衡。为了实现高效推理,我们提出了一种新奇的网络,使用区域留意力来低落盘算复杂度,并通过残差高效层聚合网络(R-ELAN)增强特征聚合。此外,我们优化了根本留意力机制的关键组件,以更好地与YOLO的实时束缚对齐,同时保持高速率性能。
因此,YOLOv12通过架构优化实现了最先辈的性能,明显进步了准确度和效率。全面的溶解研究进一步验证了这些创新的有用性。本研究挑战了基于CNN的YOLO体系计划的主导职位,并推动了留意力机制在实时目的检测中的应用,为更高效、更强盛的YOLO体系铺平了门路。
2.6 Limitations/限定
原文翻译:YOLOv12 须要 FlashAttention [13, 14],该技能目前支持 Turing、Ampere、Ada Lovelace 或 Hopper 架构的 GPU(例如 T4、Quadro RTX 系列、RTX20 系列、RTX30 系列、RTX40 系列、RTX A5000/6000、A30/40、A100、H100 等)。
2.7 More Details/更多细节
原文翻译:微调细节。默认情况下,全部 YOLOv12 模子使用 SGD 优化器练习 600 个 epoch。按照之前的工作 [24, 53, 57, 58],SGD 的动量和权重衰减分别设置为 0.937 和 5 × 10⁻⁴。初始学习率设置为 1 × 10⁻²,并在线性衰减到 1 × 10⁻⁴ 的过程中调整。数据增强方法包括 Mosaic [3, 57]、Mixup [71] 和 copy-paste 增强 [65],用于提拔练习效果。按照 YOLOv11 [28],我们接纳了 Albumentations 库 [6]。详细的超参数设置见表 7。全部模子在 8 块 NVIDIA A6000 GPU 上进行练习。按照惯例 [24, 28, 53, 58],我们报告了不同目的标准和 IoU 阈值下的标准均值均匀精度(mAP)。此外,我们还报告了全部图像的均匀推理延迟。更多细节可以在官方代码中查看:https://github.com/sunsmarterjie/yolov12。
结果细节。我们在表 6 中报告了更多的结果细节,包括 APval 50:95、APval 50、APval 75、APval、小目的 APval、中等目的 APval 和大目的 APval。
三、全文总结
到此本文的正式分享内容就结束了,在这里给大家保举我的YOLOv12有用涨点专栏,本专栏目前为新开的均匀质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行增补,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~
专栏链接:YOLOv12有用涨点专栏 | 包含卷积、主干、检测头、留意力机制、Neck上百种创新机制
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |