天津储鑫盛钢材现货供应商 发表于 2026-4-24 09:30:16

自动驾驶三维车道线检测系列—LATR: 3D Lane Detection from Monocular Images with Transformer

1. 概述

3D 车道线检测是自动驾驶中的一个底子但具有寻衅性的任务。迩来的盼望紧张依靠于从前视图图像特性和相机参数构建的结构化 3D 署理(比方鸟瞰图)。然而,单目图像中的深度暗昧不可制止地导致构建的署理特性图与原始图像之间的错位,这对精确的车道线检测提出了巨大寻衅。为了办理上述题目,我们提出了一种新的 LATR 模子,这是一种端到端的 3D 车道检测器,利用 3D 感知的前视图特性而不依靠于视图变更表现。详细来说,LATR 通过基于查询和键值对的交织注意力来检测 3D 车道线,这些键值对是利用我们的车道感知查询天生器和动态 3D 地面位置嵌入构建的。一方面,每个查询是基于 2D 车道感知特性天生的,并接纳肴杂嵌入来增强车道信息。另一方面,3D 空间信息被注入为从迭代更新的 3D 地面平面中提取的位置嵌入。LATR 在合成 Apollo 数据集和实际的 OpenLane 以及 ONCE-3DLanes 数据集上大幅逾越了之前的最新方法(比方,在 OpenLane 上 F1 分数进步了 11.4)。代码将发布在 https://github.com/JMoonr/LATR。
2. 配景先容

3D车道线检测对于自动驾驶中的各种应用,如轨迹规划和车道保持至关紧张。只管基于LiDAR的方法在其他3D感知任务中取得了明显盼望,迩来的3D车道线检测更倾向于利用单目摄像头,由于与LiDAR相比,单目摄像头具有显着的上风。除了低摆设资源外,摄像头相比其他传感器提供了更长的感知范围,并能天生高分辨率且具有丰富纹理的图像,这对于检测细长和跨度大的车道线至关紧张。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvZjJlMDAxMDA4OWNjNGZkYjk3NzhmZjZjNjMyYjBmYjEucG5n
由于缺乏深度信息,从单目图像中检测3D车道线具有寻衅性。一个直接的办理方案是基于2D分割效果和每像素深度估计来重修3D车道结构,如在SALAD中提出的方法。然而,这种方法必要高质量的深度数据举行训练,而且严肃依靠于估计深度的精度。大概,CurveFormer接纳多项式从前视图中建模3D车道。只管它制止了不确定的视图变更,但其计划中接纳的多项式情势限定了捕捉多样化车道形状的机动性。相比之下,当前主流方法更倾向于利用3D署理表现。这些署理表现是基于前视图图像特性和相机参数构建的,不依靠于深度信息。由于车道本质上位于门路上,大多数这些方法通过逆透视映射(IPM)将图像特性投影到鸟瞰图(BEV)中来构建3D署理。然而,IPM严格基于平地假设,因此在很多实际驾驶场景中(如上坡/下坡和颠簸)引入了3D署理与原始图像之间的错位。这种错位,加上变形,不可制止地拦阻了门路结构的精确估计,并危及驾驶安全。只管通过引入可变形注意力来缓解这一题目的实行取得了一些盼望,但错位题目仍未办理。
基于上述观察,我们旨在通过直接从前视图定位3D车道线而不利用任何中央3D署理,通过车道感知查询来改进3D车道检测。受2D目的检测器DETR的开导,我们将车道检测简化为端到端的聚集猜测题目,形成LAne detection TRansformer(LATR)。LATR利用车道感知查询和动态3D地面位置嵌入从前视图图像中检测3D车道线。我们计划了一种车道表现方案来形貌车道查询,更好地捕捉3D车道线的特性。别的,我们利用车道感知特性为查询提供丰富的语义和空间先验。由于纯前视图特性缺乏对3D空间的感知,我们从假设的3D地面中注入3D位置信息到前视图特性中。这个假设的地面初始化为水平网格,通过迭代优化以顺应地面真实门路。终极,车道感知查询通过变压器解码器与3D感知特性举行交互,随后通过MLP天生3D车道线猜测。
我们的紧张贡献如下:


[*]我们提出了LATR,一种基于Transformer的端到端3D车道检测框架。通过直接从前视图检测3D车道线而不利用任何3D署理表现,LATR提供了服从并制止了从火线法中存在的特性错位。
[*]我们引入了一种车道感知查询天生器,利用动态提取的车道感知特性初始化查询嵌入。别的,提出了一种动态位置嵌入,用于桥接3D空间和2D图像,该嵌入泉源于在监督下迭代更新的3D地面。
[*]我们在OpenLane、Apollo和ONCE-3DLanes的基准数据集上举行了详细实行。我们提出的LATR在这些数据集上明显逾越了之前的开始进方法(在OpenLane上进步了11.4,在Apollo上进步了4.3,在ONCE-3DLanes上进步了6.26,以F1分数盘算)。
https://dis.qidao123.com/imgproxy/aHR0cHM6Ly9pLWJsb2cuY3NkbmltZy5jbi9kaXJlY3QvMTQ3NDY2MDIzODZjNDkxYzliN2U4YzdmN2JiOGY5MWEucG5n
3. 方法

给定一个输入图像I ∈ R 3 × H × W I \in \mathbb{R}^{3 \times H \times W} I∈R3×H×W,3D车道线检测的目的是猜测图像中的车道线的3D位置。车道线由一组3D点表现,记为Y = { L i ∣ i ∈ 1 , . . . , N } Y = \{L_i | i \in 1, ..., N\} Y={       Li​∣i∈1,...,N},此中N N N 是图像中的车道线数目, L i L_i Li​ 表现第i i i 条车道线。每条车道线L i = ( P i , C i ) L_i = (P_i, C_i) Li​=(Pi​,Ci​) 由一组点P i = { ( x j i , y j i , z j i ) } j = 1 M P_i = \{(x_j^i, y_j^i, z_j^i)\}_{j=1}^M Pi​={(xji​,yji​,zji​)}j=1M​ 构成,此中M M M 是输出点集的预定基数, C i C_i Ci​ 表现种别。通常, y ∗ y_{\ast} y∗​ 被设为预界说的纵向坐标Y r e f = { y i } i = 1 M Y_{ref} = \{y_i\}_{i=1}^M Yref​={       yi​}i=1M​ \cite{7, 8, 3}。
3.1 团体结构

LATR的总体架构如图2所示。起首,我们利用一个2D骨干网络从输入图像中提取特性图X ∈ R C × H × W X \in \mathbb{R}^{C \times H \times W}
页: [1]
查看完整版本: 自动驾驶三维车道线检测系列—LATR: 3D Lane Detection from Monocular Images with Transformer