【论文解读】VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection a ...

大号在练葵花宝典 · 2024-7-23 06:16:51

摘要

3D物体检测器通常依赖于手工制作的方法，比方锚点或中心，并将颠末充分学习的2D框架转换为3D。因此，稀疏体素特征需要通过密集猜测头进行密集化和处理，这不可制止地需要额外的盘算成本。在本文中，我们提出了VoxelNext来进行完全稀疏的3D物体检测。我们的焦点见解是直接基于稀疏体素特征来猜测对象，而不依赖于手工制作的方法。我们强盛的稀疏卷积网络VoxelNeXt完全通过体素特征检测和跟踪3D物体。它是一个优雅而高效的框架，不需要稀疏到密集的转换或NMS后处理。我们的方法在nuScenes数据集上实现了比其他主机检测器更好的速率-精度权衡。我们初次证实了一个完全稀疏的基于体素的表现可以很好地用于LIDAR 3D目的检测和跟踪。在nuScenes、Waymo和Argoverse2基准测试上进行的大量实验验证了我们方法的有用性。我们的模型在nuScenes跟踪测试基准上优于所有现有的LIDAR方法。代码和模型可在github.com/dvlab-research/VoxelNeXt上得到。
引言

锚点和中心首先是为规则和网格结构的图像数据设计的，不思量3D数据的稀疏性和不规则性。这种方法将3D稀疏特征转换为2D密集特征，从而为有序的锚点或中心构建密集的检测头。尽管有用，但这种密集的头部传统会导致其他限定，包括效率低下和管道复杂。
在图1中，我们将CenterPoint中的热图可视化[57]。很显着，很大一部分空间的猜测分数几乎为零。由于固有的稀疏性和背景点多，只有少数点有相应，即nuScenes验证会合Car类的匀称相应不到1%。然而，密集猜测头根据密集卷积盘算的要求对特征映射中的所有位置进行盘算。它们不仅浪费了大量的盘算，而且由于冗余的猜测而使检测管道复杂化。它需要使用非最大抑制(NMS)，如后处理来删除重复检测

在本文中，我们提出了VoxelNeXt。它是一个简单，高效，无后处理的3D物体检测器。我们设计的焦点是一个体素到对象的方案，它通过一个强盛的全稀疏卷积网络，直接从体素特征猜测3D对象。
我们在图2中说明了主流3D探测器和我们的pipeline的区别。

高推理效率是由于我们的体素到目的方案制止了密集的特征映射。它只对稀疏和须要的位置进行猜测，如表1所示，与CenterPoint[57]进行比力。这种表现也使得voxelnext可以很容易地扩展到使用离线跟踪器的3D跟踪。先前的工作[57]只跟踪猜测的对象中心，这可能涉及到对其位置的猜测偏差。在VoxelNeXt中，查询体素，即用于框猜测的体素，也可以被跟踪以进行关联。

【NDS】在目的检测任务中，NDS（Normalized Detection Score）是一个综合评价指标，用于衡量模型在多种检测任务上的表现。NDS通常综合了多个指标，以便更全面地评估模型的性能。固然具体的盘算方式可能因不同的研究或比赛而有所不同，但一般包括以下几个方面：

mAP（mean Average Precision）：匀称精度的均值，通常是目的检测中最常用的评估指标，衡量模型在不同
IoU（Intersection over Union）阈值下的检测精度。
AP（Average Precision）：对不同类别的目的分别盘算匀称精度，然后取其匀称值。
Precision（精确率）和Recall（召回率）：精确率是正确检测出的正样本数占所有检测出样本数的比例，召回率是正确检测出的正样本数占所有实际正样本数的比例。
IoU（Intersection over Union）：猜测框与实际框的交并比，用于衡量检测框的准确度。
FPS（Frames Per Second）：检测速率，表现模型每秒能处理的帧数。

NDS的具体盘算公式可能会根据不同的任务和场景进行调解。比方，在自动驾驶中的目的检测任务中，NDS可能综合思量不同类别的目的（如行人、车辆、交通标记）的检测精度和速率。
下面是一个假设的NDS盘算示例：
NDS=α⋅mAP+β⋅Precision+γ⋅Recall+δ⋅FPS
其中，

		自动登录	找回密码
密码			立即注册

【论文解读】VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection a ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块