Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., & Urtasun, R. (2019). End-To-End Interpretable Neural Motion Planner.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA. https://doi.org/10.1109/cvpr.2019.00886.
本文接纳了轨迹采样+cost map prediction的方式实现learning based planning方案。
网络的输入是lidar cloud point and hp map, 然后通过cnn卷成feature最后接MLP举行预测。预测有两个部门,可以理解成感知使命和规划使命。其中感知使命包括了3D detection and future motion forcasting. 规划的使命则是预测稠密的cost volumes. 此外这个输入的特征空间还带偶尔序的信息,通过融合多帧的感知信息,然后举行cat组成了存储时序信息的features。规划使命是预测稠密的cost volume, 不外文章提到预测这个东西紧张靠的是gt轨迹, 我们希望预测到gt附近区域是cost比较低的,但是这个奖励太稀疏了,以是单纯的利用gt信息学习是很困难的,以是额外的通过两个感知使命帮忙调解感知backbone输入,这样也可以提升planning的学习效果,原文的表达如下:“we introduce an another perception loss that encourages the intermediate representations to produce accurate 3D detections and motion forecasting. This ensures the interpretability of the intermediate representations and enables much faster learning。”
此外 HDmap上存储了各种蹊径情况的语义信息:“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs.”这些蹊径,十字路口,车道线以及红绿灯等静态蹊径元素也被提取出来作为cost map中的静态元素,这些东西被铺进多个图层,也生成了M个通道,最后和lidar point cloud上提取出来的T个时间维度的信息组合在一起给到后面的planning利用。
有了这个cost map, 下面通过螺旋曲线的采样生成planning anchor, 将这些anchors铺到cost map上面找cost最低的轨迹。
文章号称有以下三个优势:
具备可解释性和多模态能力,从后面的数据来看,可解释性来自cost map的高低,能够有效可视化出来碰撞或者违背蹊径交通规则的区域。此外额外的两个感知使命3d detection and motion forcasting也能提供中心信息的可视化做到肯定的可解释性。
而轨迹的costing方式则是则是通过从cost map中索引voxel-wise的cost举行计算的。感知的输入是H,W,Z维度的lidar cloud points, 同时为了思量时序上的动态agents的信息,雷达点云信息还要融合多帧的时序效果,在Z维度叠起来,H,W,ZT. 另一方面,Wiley思量蹊径情况元素,本文给各个蹊径元素都预备了一层通道,包括road, intersections, lanes, lane boudaries, and traffic lights. 原文表达是“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs. Similar to [5], we rasterize the map to form an M channels tensor, where each channel represents a different map element, including road, intersections, lanes, lane boundaries, traffic lights, etc.”以是维度变成H,W,(ZT+M).
感知backbone是个CNN,作为下面两个头的输入,其中感知头预测bounding box and motion forcasting. cost volume头预测cost volume, 这里紧张看下cost volume的预测。这里接纳了max margin loss, gt是人驾轨迹。loss希望区分人驾轨迹的区域和其他区域,人驾轨迹的地方就是cost低的地方:“The intuition behind is to encourage the ground-truth trajectory to have the minimal cost, and others to have higher costs.”
c表现cost, d表现轨迹距离,gamma表现traffic rule violation.
在负样本采样中,需要采样大量的偏移人驾轨迹的曲线,这里除了用planning anchor采样逻辑外,还对出发点状态做了一个稍微扰动:“except there is 0.8 probability that the negative sample doesn't obey SDV's initial states, e.g. we randomly sample a velocity to replace SDV's initial velocity.”
planinng anchor
横向接纳螺旋曲线举行采样:
纵向则是接纳了constant accleration直接采样加速度,非常粗糙。
文章还提到了一点,“Note that Clothoid curves cannot handle circle and straight line trajectories well, thus we sample them separately. ”这个螺旋曲线不能表达直线和圆形,以是直行和掉头要出问题,以是额外单独采样,他们的采样比例是:“The probability of using straightline, circle and Clothoid curves are 0.5, 0.25, 0.25 respectively.”
experiment
实验关注L2 distance, collision rate, and lane violation rate这几个指标,然后做了几个对比实验:
Imitation Learning (IL):imitation is all you need, 用纯粹imitation学习
Adaptive Cruise Control (ACC):没有细说怎么处置惩罚,不外从后面的实验效果分析上来看,应该是加了lane violation的loss
Plan w/ Manual Cost (Manual): 人工筹划cost
对比效果如下:
结论就是:“Egomotion and IL baselines give lower L2 numbers as they optimize directly for this metric, however they are not good from planning perspective as they have difficulty reasoning about other actors and collide frequently with them.”
然后对比其他几个方面的对比效果。包括联合训练(所谓联合就是是不是要感知使命和规划使命一起训),输入的时序融合长度,是否确实gamma penalty等等:
清华提出高斯天下模子
以视觉信息作为输入的3D占用预测使命近来因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。3D占用预测使命旨在根据视觉输入估计 3D 情况中每个体素的占用状态和语义标签。该使命提供了更细粒度的场景语义和结构描述,这对于开辟安全且强盛的自动驾驶系统非常紧张。
利用时间输入对于 3D 占用预测非常紧张,由于它为理解场景演变提供了充足的历史上下文信息。大多数现有方法遵照传统的感知、转换和融合流程,给定序次输入信息,感知模块独立获得每个帧的场景表现,比方BEV特征以及体素特征。然后,转换模块根据自车轨迹对齐多帧的时序特征信息,融合模块融合对齐的特征表现以推断当前的 3D 占用情况。
然而,这些方法未能思量驾驶场景演变的固有连续性和简朴性。相邻帧中的驾驶场景表现应该彼此紧密相关,由于场景演变通常仅源于自车和其他动态物体的运动。直接融合多帧表征会忽略 3D 场景演化提供的这种强先验信息,即静态物体连贯性和动态物体运动,这使得模子很难理解驾驶场景的发展。此外,这种筹划增长了时间建模的复杂性和计算工作量,从而降低了其效率和有效性。
思量到上述提到的相关问题,在本文中,我们探索基于天下模子的范式以利用场景演变举行感知,该算法称为GaussianWorld。GaussianWorld接纳显式 3D 高斯作为场景表现,而不是传统的隐式 BEV/Voxel 表现,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入,GaussianWorld算法模子旨在预测场景如何演变并预测当前的占用情况。
为了证实提出的GaussianWorld算法模子的有效性,我们在流行的nuScenes数据集上举行了大量实验。如下图所示,我们的 GaussianWorld 可以有效地预测场景演变,并在不引入额外计算的情况下将单帧占用率预测进步 2% 以上(mIoU)。
论文链接:https://arxiv.org/pdf/2412.10373 网络模子结构&技术细节
World Models for Perception
精确感知 3D 场景对于开辟可靠的自动驾驶系统至关紧张。它旨在预测 3D 场景的几何形状和语义,以支持后续的预测和规划使命。感知模子利用前帧和当前帧的传感器输入来获得感知效果。
通过获得预测的场景表征和下一个观察值后,我们可以将它们输入到天下模子中,以流式方式预测下一个表征。天下模子根据场景演变和当前观察值学习场景表征的联合分布,最终用于实现感知。
Explicit Scene Evolution Modeling
驾驶场景的演化一样平常简朴且连续,紧张由动态物体的运动引起。当在肯定范围内接纳以自车为中央的场景表现时,场景演化通常可以分解为三个关键因素:静态场景的自我运动对齐,动态物体的局部运动,新观察区域的补全。通过对这些因素举行建模,天下模子可以学会有效地演化场景,如下图所示。
思量到上述场景演化的分解,我们接纳 3D 高斯作为场景表现,以明确和连续地对场景演化举行建模。我们用一组稀疏的 3D 语义高斯来描述 3D 场景,其中每个高斯代表一个具有明确位置、比例、旋转和语义概率的机动区域。为了学习场景演化,我们引入了一个额外的时间特征属性来捕获 3D 高斯的历史信息。3D 高斯表现可以表述为如下的公式情势。
我们进一步提出了一个 3D 高斯天下模子,GaussianWorld,以利用场景演化举行感知。提出的 GaussianWorld 对之前的 3D 高斯和当前的传感器输入举行操作,以预测当前的 3D 高斯。
接下来,我们将先容 GaussianWorld 如何在三维高斯空间中对上述场景演化的分解因素举行建模。
(1)Ego Motion Alignment of Static Scenes.
GaussianWorld 的目的是基于之前的高斯效果预测当前的3D高斯,每帧的 3D 高斯表现代表以相应帧的自车位置为中央的肯定范围内的场景,向前移动会导致物体的全局位移。GaussianWorld 通过利用对齐模块来对齐从上一帧到当前帧的 3D 高斯位置来解决此问题。为了实现这一点,它基于自车轨迹对整个场景的 3D 高斯举行全局仿射变更。情势上来看,给定最后一帧 3D 高斯和仿射变更矩阵,对齐的 3D 高斯可以表现为如下的公式情势。
(2)Local Movements of Dynamic Objects
我们还思量了场景演变过程中动态物体的局部运动。GaussianWorld 通过更新动态高斯函数的位置来实现这一点。对齐的 3D 高斯函数根据其语义概率分为两个互斥集,分别是动态高斯集合和静态高斯集合。然后,GaussianWorld 利用运动层来学习对齐的 3D 高斯的联合分布和当前观察效果,以预测动态高斯的运动。
(3)Completion of Newly-Observed Areas
当自车移动到新位置时,某些现有区域会超出界限,而一些新区域则变得可观察。我们丢弃超出界限的高斯函数,并利用随机初始化的高斯函数补全新观察到的区域。为了保持一致数目的 3D 高斯函数,我们在新观察到的区域中均匀采样等量的 3D 高斯函数。随后,GaussianWorld 利用感知层根据当前观察预测新观察区域中已补全的 3D 高斯分布的所有属性。
3D Gaussian World Model
接下来,我们先容一下本文提出的GaussianWord的整体框架。从前一帧的 3D 高斯开始,我们起首应用对齐模块来获取当前帧的对齐 3D 高斯。在新观察到的区域中,我们采样额外的 3D 高斯并将其当前帧的3D高斯举行混淆,从而一起描述整个场景。
我们基于当前传感器的输入数据,利用运动层和感知层来更新对齐的3D高斯以及最新观察到区域的3D高斯。值得留意的是,这两层共享相同的模子架构和参数,即编码器模块和细化模块,从而允许它们集成到同一的演化层中并并行计算。这种筹划确保GaussianWorld 保持模子简朴性和计算效率。我们堆叠多个演化层以迭代地细化 3D 高斯函数,使模子具有充足的能力来学习场景演化
此外,为了解决 3D 高斯表现与现实天下之间的潜在不一致问题,我们加入了别的的细化层来微调 3D 高斯的所有属性
我们接纳交叉熵损失和 lovaszsoftmax损失举行训练,起首在单帧使命上对我们的模子举行预训练。然后我们利用流式训练计谋对模子举行微调,其中每个场景的图像按序次输入到模子中。在每次训练迭代期间,将当前帧图像与上一帧中预测的 3D 高斯相联合输入到模子中举行 3D 占用预测。当前帧中预测的 3D 高斯将通报到下一次迭代举行连续流式训练。在流式训练的早期阶段,模子还不能熟练地预测场景的演变,导致流式预测误差很大。为了增强训练稳定性,我们从短序列开始训练,并在整个训练过程中逐渐增长序列长度。我们利用概率建模,并在每次迭代中以的概率随机丢弃前一帧的 3D 高斯表现。随着训练的进展,我们逐渐降低的值,使模子能够适应预测更长的序列。 实验效果&评价指标
我们对 nuScnene 验证集上以视觉为中央的 3D 语义占用预测方法与其他开始进方法举行了全面比较,并利用 SurroundOcc 的占用标签,相关的实验效果如下表所示。
我们对基于 GaussianFormer 的差别时序建模方法的性能和效率举行了比较。我们探索了两种实现 GaussianFormer-T 的方法,分别在 3D 高斯空间和透视视图空间中举行时序融合。对于前者,我们独立提取每帧的 3D 高斯表现,并利用 4D 稀疏卷积来促进跨帧 3D 高斯之间的时序交互。对于后者,我们独立提取每帧的多尺度图像特征,并接纳可变形留意机制来实现当前帧的 3D 高斯和来自差别帧的图像特征之间的交互。相关的实验效果指标如下所示。
结论
在本文中,我们提出了一个基于天下模子的框架,利用场景演化举行 3D 语义占用预测。我们将 3D 占用预测重新表述为以当前传感器输入为条件的 4D 占用预测问题。我们将场景演化分解为三个因素,并利用 3D 高斯举行显示建模。然后,我们利用GaussianWorld 来显式地利用 3D 高斯空间中的场景演化,并以流式传输的方式促进 3D 语义占用预测。大量的实验效果表明,与现有方法相比,我们的模子在不引入额外计算开销的条件下,展示了SOTA的性能。
#HoloDrive