探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 ! ...

打印 上一主题 下一主题

主题 826|帖子 826|积分 2478


1 Introduction

盘算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它答应以紧凑的方式表达关系,并提供在现实世界中导航和操纵的能力。3D视觉在各个范畴都发挥偏重要作用,包罗主动驾驶、机器人技能、遥感、医疗、增强现实、计划行业等浩繁应用。
由于以下几个原因,3D范畴引起了越来越多的爱好:
(1)各种3D捕获传感器的发展,例如激光雷达(LiDAR)和RGB-D传感器;
(2)引入了大量在3D空间收集和标记的大型3D几何数据集;(3)3D深度学习方法取得的进展。
常见的3D深度学习方法接纳深度卷积神经网络(CNNs)和多层感知器(MLPs)。然而,基于 Transformer (transformer)的架构,利用注意力机制,在天然语言处理(NLP)和2D图像处理等范畴的表现显示出强盛的竞争力。尽管卷积运算符具有有限的感受野和平移等方差特性,但注意力机制在全局范围内操纵,因此可以编码长距离依赖性,使基于注意力的方法能够学习更丰富的特性表现。
鉴于基于 Transformer 的架构在图像范畴的成功,近年来许多3D视觉方法在模子计划中接纳了 Transformer 。这些架构已被提出作为大多数常见3D视觉应用问题的办理方案。在3D空间中, Transformer 已经代替或增补了以前的学习方法,得益于其捕获长距离信息和学习特定任务感应毛病的能力。
鉴于对3D视觉中 Transformer 的爱好日益增加(图1左侧),一个概述现有方法的观察对于全面相识这个新兴范畴至关重要。在本次观察中,作者回首了将 Transformer 用于3D视觉任务的方法,包罗分类、分割、检测、补全、姿态估计等(图1右侧)。作者突出了3D视觉中 Transformer 计划选择,使其能够处理具有各种3D表现的数据。对于每个应用,作者讨论了提出的基于 Transformer 方法的关键特性和贡献。末了,作者将在广泛利用的3D数据集/基准测试大将其性能与替代方法举行比较,以评估 Transformer 集成在此范畴的竞争力。

作者注意到,许多观察研究了3D视觉中的深度学习方法。在这些观察中,许多已发表的研究提供了处理3D数据的总体回首[1]、[2]、[3]、[4]。其他研究则专注于特定的3D视觉应用,如分割,分类[8],或检测。别的,一些观察从表现法的角度审阅3D深度学习方法[11]、[12],而其他研究则将研究限制在特定的数据输入传感器。思量到大多数观察在 Transformer 架构近来的成功之前发表,对基于 Transformer 的架构的关注仍然缺失。
由于浩繁依赖注意力机制和 Transformer 架构的视觉方法的涌现,出现了许多观察这些方法的作品。其中一些作品思量了视觉中的一般 Transformer ,而其他作品则专注于特定方面,如效率[19],或特定应用,如视频[20]或医学成像[21]。思量到2D和3D数据表现和处理的差别,将注意力特别关注应用于3D视觉应用的 Transformer 至关重要。因此,作者专注于应用于3D视觉范畴的 Transformer 架构。
本次观察包罗了接纳3D输入和/或输出的 Transformer 架构的方法。3D数据可以通过多种传感器得到,例如室内的RGB-D传感器,室外的激光雷达,以及专业的医疗传感器。作者包罗利用点云作为输入或密集3D网格的方法。密集3D网格也可以通过在不同切片处获取图像来得到,这在医学成像中很常见。别的,还包罗将 Transformer 架构应用于其他输入数据(如多视图图像或鸟瞰图图像)并在3D空间生成输出的代表性方法。
2 Preliminaries

在三维盘算机视觉范畴,近来取得了重大进展。在本节中,作者首先回首了三维数据的不同表现方法,以及使能从这类数据中学习的浩繁处理技能。对于 Transformer 模子,作者先容了其主要组成部分(注意力机制)、架构以及其宝贵的特性。
2.1 3D Representation

图像和视频具有固有的天然表现情势,特点在于标准网格上的像素。另一方面,3D几何并没有这种有序的网格结构。在本节中,作者将讨论广泛利用的 数据表现情势,这些情势答应接纳不同的深度学习算法/技能。图2展示了斯坦福兔子不同的3D表现。

多视角表现。一个3D形状可以通过从不同视角捕获的一组2D图像来表现。与其他3D表现情势相比,这种表现相对高效,主要因为它少了一个维度,从而数据大小较小。利用这种表现,可以利用2D学习方法举行3D分析。与昂贵的且较少见的3D传感器相比,利用2D相机捕获此类数据相对轻易。尽管多视角表现针对的是更简单的2D处理,但也可以提取3D信息并在3D中举行处理。这是通过立体视觉完成的,多个视图中物体的相对位置答应通过摄像机射线三角丈量提取 信息。
深度图像。深度图像提供了每个像素对应的摄像机与场景之间的距离(图2)。这种数据通常以RGB-D数据的情势呈现,这是一种结构化表现,由彩色图像和相应的深度图像组成。利用诸如Kinect等深度传感器可以轻松获取此类数据。深度图像也可以从多视角/立体图像中得到,此时为图像中的每个像素盘算视差图。由于深度图像是从一个视角捕获的,因此它不能形貌整个物体的几何形状——物体仅从一个侧面被看到。然而,由于许多 算法可以直策应用于这种结构化数据,因此利用这种表现情势可以充分利用2D处理的巨大进步。
点云。点云是3D空间中的一组极点,通过它们在 和 轴上的坐标来表现。可以从3D扫描仪(例如激光雷达或RGB-D传感器)从一个或多个视角获取此类数据。通过RGB相机捕获的颜色信息可以选择性地叠加到点云上,作为附加信息。与通常表现为矩阵的图像不同,点云是一个无序集合。因此,处理此类数据必要一种排列稳定的方法,以确保输出不随点云的不同排序而变革。
Voxel 。 Voxel 表现在3D空间中提供规则的网格信息。 Voxel (体积元素)雷同于像素(图像元素),2D图像的信息就放置在像素上。每个 Voxel 提供的信息包罗占用、颜色或其他特性。可以通过 Voxel 化过程从点云得到 Voxel 表现,该过程将所有 点的特性在 Voxel 内分组以供后续处理。3D Voxel 的结构化特性答应像2D方法一样处理此类信息,例如卷积。在3D卷积中,卷积核在三个维度上滑动,而2D卷积仅在两个维度上滑动。另一方面, Voxel 表现通常是稀疏的,因为它包含许多对应于物体四周空间的空体积。别的,由于大多数捕获传感器收集的是物体表面的信息,物体的内部也由空体积表现。
网格。网格是由极点、边和面(多边形)的集合。基本组件是多边形,它是一个由一组 极点毗连定义的平面形状。与仅提供极点位置的点云相比,网格包罗物体的表面信息。网格通常用于盘算机图形应用步伐中,以表现3D模子。然而,直接利用深度学习方法处理表面信息并不简单,许多技能接纳从表面采样点的方法,将网格表现转换为点云。
2.2 3D Processing

在二维图像理解中,通常接纳规则网格上的常见表现方法。另一方面,三维数据的表现方式可以不同,已经提出了各种方法。现有的三维深度学习方法可以分为以下几类:(1)基于点的,(2)基于 Voxel 的,以及(3)基于投影的。
基于点的深度网络。基于点的方法直接处理数据,无需将其转换为规则集。因此,这些方法利用排列稳定技能提取特性信息。PointNet [23] 利用逐点多层感知器(MLPs)与全局最大池化操纵符来提取特性,同时保持排列稳定性(图3)。然而,PointNet 并未捕获三维点四周物理空间中的局部结构。因此,提出了 PointNet++ [25] 来融合多尺度上的局部特性。

一些近来的方法利用图神经网络(GNNs)来处理点云。图上的节点对应于三维点,信息通过毗连节点的边通报。动态图CNN [26] 通过利用K近来邻(kNN)构建局部邻域图来利用局部几何结构。
另一种直接处理三维点云的方法是利用一连卷积操纵。例如,SpiderCNN [27] 利用一系列多项式函数作为卷积核。相邻点的核权重因此依赖于到这些点的距离。KPConv [28] 引入了点卷积,其中核表现为欧几里得空间中一组点的集合,并带有核权重。另一方面,PointConv [29] 利用局部三维坐标的非线性函数作为卷积核,以及权重和密度函数。权重函数通过多层感知器学习,而密度函数则通过核密度估计学习。
基于 Voxel 的深度网络。与处理无序和不规则点云集的方法不同,许多方法通过 Voxel 化将三维数据转换为规则网格。在文献[24]中,对稠密 Voxel 网格应用了三维卷积举行目标识别。然而,与2D图像相比,增加的维度导致待处理数据量的显著增加,这限制了目标大小或 Voxel 分辨率。别的,这种方法在盘算上并不高效,因为它没有利用三维数据的稀疏性。作为替代,其他方法[30],[31]仅在占用的 Voxel 上操纵卷积,这大大降低了盘算需求。这使得可以在更高分辨率下举行处理,与稠密方法相比,这反映在更高的准确性上。其他方法[32],[33]提出通过将空间划分为八叉树层次来学习更高分辨率的三维表现。在八叉树结构中,稠密占据区域以高精度建模,而空区域则由大单元格表现。图3比较了基于 Voxel 的方法和基于点的方法。
基于投影的深度网络。将不规则的点云集转换为规则的另一种方式是通过投影。一旦三维数据被投影到平面上,就可以利用许多2D方法举行分析。现有方法包罗将点云集投影到多个视图,在2D平面上举行处理[38],大概投影到估计的切线平面上,并应用带有一连核的卷积[39]。
2.3 Transformer

自注意力机制。Transformer模子[40]已被广泛应用于浩繁语言和视觉任务中。在Transformer中,缩放的点积注意力是关键,其旨在捕获不同输入元素之间的依赖关系。图4(a)展示了一个典范的缩放点积注意力模块。该注意力模块接收一个 Query 向量、一个键向量和一个值向量作为输入,并生成值的加权和:
其中表现 Query 和键中的特性维度,用于缩放点积操纵的输出。
缩放的点积注意力生成单一的注意力图来表现 Query 和键之间的关系。为了更好地表现这种关系,多头注意力(图4(b))旨在关注来自不同子空间的信息。多头注意力包含个缩放点积注意力模块,并生成个不同的输出:
其中$ {f}{att} 表现等式中的缩放点积注意力, {W}{i}{q},{W}_{i}{k},{W}_{i}^{v} 是为、键和值学习的可训练权重矩阵。末了,多头注意力将 h $个输出举行拼接,并通过一个线性层生成最终的输出。
Transformer架构。图4©展示了一个基于编码器-解码器结构的典范Transformer模子。编码器包含$ {N}{e} {N}{d} $个相同的块,每个块由一个多头自注意力子层、一个多头交织注意力子层和一个前馈网络组成。多头自注意力子层捕获解码器中不同元素之间的关系,而多头交织注意力子层通过将编码器的输出作为键和值,在编码器的输出上实行注意力。前馈网络通过多层感知机转换每个输入元素的特性。与编码器雷同,在解码器的每个子层后也存在残差毗连和归一化操纵。
Transformer特性。Transformer的特性总结如下:


  • Transformer根据不同元素之间的关系生成输出。即,Transformer可以动态地聚合输入,而不是学习静态权重。
  • Transformer具有置换稳定性。三维信息的一种常见表现是点云数据,它是一个无序的点集。因此,必要一个置换稳定的技能来确保对于相同输入(物体)产生一致的输出。
  • Transformer能够处理任意大小的输入。这对于3D范畴来说很合适,因为输入数据的大小不一。
  • Transformer建模长距离关系。它们不受限于局促的感受野,得当于具有分散输入的3D视觉任务。
这些特性表明,在3D盘算机视觉任务中利用Transformer具有良好的远景。因此,基于Transformer的3D视觉任务近年来受到了广泛关注。
3 Transformer Design in 3D Vision

注意力模块能够捕获远程依赖关系,这有助于学习在基于卷积的网络中未充分利用的上下文。这些远程依赖关系在场景理解中尤为重要,尤其是在局部信息模糊的情况下。别的, Transformer (transformers)可以应用于集合,这是点云的天然表现情势。与图像表现不同,点云可以具有不同的长度,雷同于句子中的单词。鉴于 Transformer 在天然语言处理(NLP)范畴的成功,人们希望将 Transformer 集成到3D范畴将呈现雷同的趋势。另外,在2D中应用的 Transformer 必要在特性信息中添加位置信息。在3D中,位置信息作为点云中点的坐标而存在。上述 Transformer 的特性为在3D范畴利用 Transformer 架构奠基了基础。然而,将 Transformer 集成到3D应用流程中有许多方法。因此,在本节中作者将讨论这种集成的一些关键特性。作者的讨论基于图5所示的分类。

3D输入到 Transformer 。可以利用 Transformer 架构处理不同的3D数据表现。数据表现的选择会影响数据大小、数据分布、细节 Level (粒度)和结构。别的,数据表现将答应基于 Transformer 的技能与针对特定表现的现有方案相团结。
Transformer 处理无序集合的能力使其可以直策应用于点云。在这种情况下,输入到 Transformer 的将是点坐标以及与非 Transformer 架构一起利用的任何附加特性,如颜色、法线和地面高度等。由于点属于一连域,因此在处理之前必要有效的采样技能。
大型点云可以裁剪到肯定的物理尺寸,以处理较少的点,同时保持足够的分辨率以捕获局部几何特性。在欧几里得空间中,固定的大小并不导致固定命量的点。因此,处理固定大小输入的模子必要从点云中采样。采样可以通过随机采样、最远点采样、k近来邻(kNN)采样或从网格采样等方法实现。这种采样会影响代表给定目标的点数,因为它取决于场景的复杂性。尽管大多数方法在预处理阶段举行采样,但有些方法在训练过程中举行采样。这大概导致训练过程中的显著开销。
相对于直接利用 Transformer 处理点云,另一种方法是先将输入转换为规则网格。等距的 Voxel 答应不管点云中点的数量怎样,都能相似地表现物体。如果必要,它也便于举行邻域搜刮,因为可以通过哈希表举行搜刮。另一方面,为了捕获精致的形状信息,必要利用精致的网格分辨率,这将导致待处理数据的三次方增长。别的,由于3D场景主要由空白空间组成,处理空的 Voxel 网格是不高效的。处理被占用的 Voxel 会导致不同大小的输入,因此可以像点云一样举行采样。不过,对于 Voxel 表现,点密度的一致性和更简单的搜刮仍然存在。
上下文 Level 。一个高效的视觉应用应该能够捕获到精致的局部信息以及全局上下文。在这两种情况下,都会遇到盘算需求增加的问题。因此,通常会在不同的尺度上处理数据,以实现这两个目标。
处理3D信息的 Transformer 可以应用于点的局部邻域以捕获局部形状信息。与2D范畴的方法雷同,局部池化答应在不同尺度上处理,拥有更大的感受野。更大的感受野使得远点之间可以举行交互以学习上下文。
由于在局部信息上应用 Transformer 必要多层应用,因此一次性利用整个3D数据的 Transformer 也是可行的。这减少了局部邻域采样的必要性,因为整个点云一次被利用。然而,输入数据的大小是有限的,必要在点云覆盖范围和点的密度之间找到良好的均衡。
纯 Transformer 和混淆 Transformer 。纯 Transformer 架构依赖于注意力层来提取特性并生成特定任务的输出。在某些情况下,非注意力层被用来编码输入或增补注意力层。如果架构在所 Proposal 的流程中不依赖于先前的非注意力架构或主干网络,作者将其视为纯 Transformer 。
由于 Transformer 能够捕获全局上下文,因此它们可以用来提取更丰富的特性。将 Transformer 集成到深度学习架构中的一种方式是用基于注意力/ Transformer 的特性提取模块替换原有的模块。除了完全依赖 Transformer 提取特性外,还可以利用基于非 Transformer 的局部特性提取方法,然后与 Transformer 团结举行全局特性交互。 Transformer 还可以通过非 Transformer 层来提取更丰富的信息。这种互补性大概是因为每种方法可以应用的不同分辨率造成的。
可扩展性。与2D数据相比,3D数据因增加了第三个维度而包含更多信息。另一方面, Transformer (transformers)在盘算上较为昂贵,因为它们必要生成一个大的注意力图(attention map),其复杂度与输入大小成二次关系。鉴于数据量和 Transformer 输入大小的增加,这必要一个采样方案以支持处理。典范的处理方法通过减少 Transformer 的输入大小来进步可扩展性,包罗:对点云利用最远点采样团结kNN特性聚合,对低分辨率体积表现举行 Voxel 特性聚合,接纳图像块特性嵌入,利用基于CNN的方法举行特性下采样,以及目标 Level 的自注意力。
4 TRANSFORMERS IN 3D VISION: APPLICATIONS

Transformer架构已被整合到各种3D视觉应用中。在本节中,作者根据特定的3D视觉任务回首了干系方法,这些任务包罗目标分类、目标检测、分割、点云补全、姿态估计等。
4.1 Object Classification

作者首先概述了在定义的局部区域内应用 Transformer 的方法,然后讨论了在全局层面上应用 Transformer 的方法。表1根据上述分类法展示了这些方法的概览。

局部 Transformer 。Point Transformer [44] 在每个数据点的局部邻域中应用自注意力。点 Transformer 块包罗注意力层、线性投影和残差毗连(图6)。别的,不是利用3D点坐标作为位置编码,而是利用带有线性层和ReLU非线性的编码函数。为了增加所提 Transformer 架构的感受野,引入了下采样层以及上采样以恢复原始数据大小。

3DCTN [57] 提出将图卷积层与 Transformer 团结。前者高效学习局部特性,而后者能够学习全局上下文。网络以带有法线的点云作为输入,包含两个模块以减少点集,每个模块都有两个块:第一个块是利用图卷积的局部特性聚合模块,第二个块是利用包含偏移注意力和平行注意力的 Transformer 举行全局特性学习的模块。LFT-Net [60] 提出了一种局部特性 Transformer 网络,利用自注意力来学习点云的特性。它还引入了Trans-pooling层,该层聚合局部特性以减小特性大小。
全局 Transformer 。在全局尺度上,注意力模块已被集成到网络的各个部分,具有不同的输入和位置嵌入。Attentional ShapeContextNet [47] 是早期接纳自注意力举行点云识别的方法之一。为了学习形状上下文,自注意力模块用于选择上下文区域、聚合和转换特性。这是通过用自注意力学习的加权聚合函数替换手工计划的分区和池化来完成的,该自注意力应用于所有数据。在 [56] 中,自适应小波 Transformer 首先在神经网络内举行多分辨率分析,以生成利用提升方案技能的视觉表现分解。生成的近似和细节组件捕获了鄙俚任务感爱好的几何信息。然后利用 Transformer 对不同来自近似和细节组件的特性给予不同关注,并将它们与原始输入形状特性融合。TransPCNet [55] 利用特性嵌入模块聚合特性,将它们输入到核大小为1的可分离卷积层,然后利用注意力模块学习检测由3D点云表现的排水沟缺陷的特性。
表1 基于 Transformer 的分类方法概览。这里展示了 Transformer 集成的重要属性,包罗输入、启用 Transformer 处理采样元素、架构(纯或混淆)以及 Transformer 操纵的上下文 Level 。还包罗了主要贡献的突出显示。所有这些方法还实行目标部分分割,除了带有星号(*)的例外。
其他方法提出了注意模块的变体。杨等人[51]通过将注意模块应用于由绝对和相对位置嵌入表现的点云,开辟了点注意力 Transformer (PATs)。注意模块接纳了具有组注意力的多头注意力计划,雷同于深度可分离卷积[52],以及通道混洗[53]。点云 Transformer (PCT)[41]对输入点嵌入应用偏移-注意力。偏移-注意力层盘算自注意力特性与输入特性之间的逐元素差别(图6)。它还通过采样和分组邻近点来得到邻居嵌入,以改善局部特性表现。DTNet[58]汇总了点状和通道状的多头自注意力模子,以学习来自位置和通道的上下文依赖。
一些方法专注于通过 Mask 输入的部分内容来预训练 Transformer 。Point-BERT[61]首先将输入点云划分为点块,受Vision Transformers[69]的启发,并利用迷你-Pointnet[23]生成一系列点嵌入。然后,这些点嵌入被用作转换编码器的输入,该编码器通过利用 Mask Token Mask 一些点嵌入举行预训练,雷同于[70]。通过利用预学习的点状分词器获取 Token ,该分词器将点嵌入转换为离散的点 Token 。雷同地,Pang等人[63]在预训练期间将输入点云划分为块并随机 Mask 它们。基于 Transformer 的自编码器用于通过从未 Mask 的点块学习高级潜在信息来检索 Mask 的点块。
局部和全局 Transformer 。已有许多方法提出利用转换架构来学习局部和全局信息。为此, Transformer 被部署在不同的阶段来处理不同的信息。Engel等人[50]接纳局部-全局注意力来捕获局部和全局几何关系和形状信息。注意模块的输入特性是有序子集的局部特性,通过置换稳定网络模块学习得到。在[59]中,CpT利用动态点云图创建点嵌入,然后输入到转换层。转换层由样本注意力组成,动态处理局部点集邻居以及点间注意力。另一方面,Liu等人[62]利用最远距离采样和K近来邻来分组点。然后它利用组抽象和基于半径的特性抽象来得到组特性。然后, Transformer 用于组内以及所有点组之间。3DMedPT[66]通过下采样点并将局部特性分组(雷同于DGCNN[26])来嵌入局部点云上下文。它提出利用相对位置嵌入和 Query 位置的局部响应聚合。
点- Voxel Transformer (PVT)[54]团结了基于 Voxel 和基于点的转换模子来提取特性信息。基于 Voxel 的模子由于规则数据局部性有效地捕获局部特性。它利用一个局部注意力模块,其盘算复杂度与输入 Voxel 大小成线性关系。基于点的模子捕获全局特性,并修正 Voxel 化过程中的信息丢失。它利用相对注意力,这是一种自注意力变体,思量输入点之间的一对关系或距离。
另一方面,一些方法专注于在多个尺度上应用注意力机制。Patchformer [64] 构建了一个基于 Voxel 的结构,该结构融合了 Patch 注意力模块(PAT)和多尺度注意力模块(MST)。PAT模块对一组小基举行加权和,以捕获全局形状,从而实现对输入大小的线性复杂度;而MST模块对不同尺度的特性应用注意力。在文献[65]中,3CROSSNet首先利用点状特性金字塔模块提取多尺度特性。然后跨 Level 应用交织注意力以学习 Level 间和 Level 内的依赖关系。另一个跨尺度注意力模块应用于更好地表现尺度间和尺度内的相互作用。MLMSPT [68] 提出了一种点状金字塔 Transformer ,它从多个 Level 和尺度捕获特性。然后利用多 Level Transformer 和多尺度 Transformer 来捕获不同 Level 和尺度上的上下文信息。
Wu等人[67]引入了质心注意力,其中自注意力将输入中的信息映射到较小的输出。在训练期间,优化软K-means聚类目标函数。质心注意力然后将输入序列转换为质心集合。
4.2 3D Object Detection

许多基于注意力的方法已用于3D目标检测。表2展示了这些方法及其接纳的 Transformer 概述。这些方法大多应用于单一范畴:室内或室外。将应用限制在一个范畴内是由于室内与室外收集的数据模态存在差别,室内常用的3D传感器为RGB-D传感器,而室外常用的是激光雷达(LiDAR)。这导致了数据集分布、密度和范围的不同。尽管如此,一个范畴的 方法可应用于具有相同表现的另一范畴,但通常必要大量适配才能到达竞争性的结果。

一种在室表里都应用了的方法是Pointformer [71]。它利用基于 Transformer 的特性学习块,包含三部分:局部 Transformer 捕获局部区域的渺小信息,局部-全局 Transformer 将学习的局部特性与全局信息整合,以及全局 Transformer 捕获全局上下文。局部 Transformer 将局部区域的特性聚合到一组子采样点,从而降低盘算需求。其他方法仅应用于室内或室外数据集。
室内目标检测 MLCVNet [83] 创建在[84]之上,并利用多级自注意力模块聚合上下文信息,这些 Level 包罗 Patch 、目标和全局场景。在 Patch Level ,注意力模块用于生成更好的投票到目标质心点。目标 Level 的注意力模块捕获 Proposal 之间的上下文信息,而全局 Level 的注意力模块利用 Patch 和簇信息来学习全局场景上下文。3DETR [45] 提出了一个端到端的 Transformer ,包含两个模块:直接在点云上应用的 Transformer 编码器,用于提取特性信息,以及一个 Transformer 解码器,用于预测3D边界框(见图7)。解码器转换层利用来自种子点的非参数 Query 嵌入以得到更好的3D检测。

刘等 [46] 利用转换模块从利用PointNet++ [25]学习特性的目标候选中提取和精化目标表现。转换模块包罗多个多头自注意力和多头交织注意力,并作用于利用k近来点采样技能采样的点子集。ARM3D [80] 利用基于注意力的模块提取由非 Transformer 架构学习到的 Proposal 特性之间的细粒度关系。利用目标性得分来选择 Proposal ,并与其他 Proposal 匹配以学习关系上下文。
在[92]中,BrT利用 Transformer (transformer)使图像和点云之间的交互学习成为大概。它接纳了对齐点的条件目标 Query 和图像块,并增加了点对块投影以改善学习结果。
户外目标检测。对于户外环境, Transformer 架构已被用于处理来自不同泉源和不同表现情势的数据。已经提出了许多具有 Voxel 表现的 Transformer 模子。其中一种方法是Voxel Transformer [42],它通过一系列稀疏和子流形 Voxel 模块处理输入 Voxel 网格。它对非空 Voxel 通过局部关注和膨胀关注实行多头自注意力。接纳 Voxel Query 机制来加快搜刮非空 Voxel ,得益于规则网格上的数据。Fan等人[77]指出,在3D中雷同2D域中对特性图举行下采样会导致信息丢失,并提出单一步长 Transformer 以保持整个网络中相同的分辨率。它也利用 Voxel 化输入,但 Transformer 接纳稀疏区域关注以减少 Transformer 模块的盘算需求。Fast Point Transformer [78]旨在加快局部自注意力网络的速度。由于局部自注意力通常必要找到k近邻点,这通常是一个瓶颈。所提出的自注意力模块在接纳 Voxel 哈希架构的点云上举行学习,这答应快速选择邻域,而且与以质心为意识的 Voxel 化和去 Voxel 化相团结,嵌入一连的3D坐标。近来,Voxel Set Transformer [79]提出了一种全局方法来建模点云中的长距离依赖。它引入了基于 Voxel 的集合注意力(VSA)模块,该模块由两个交织注意力代替自注意力组成,并可以以线性复杂性并行处理大小不同的输入。PDV [94]利用3D稀疏卷积从 Voxel 化的3D场景中提取特性信息,然后通过区域 Proposal 网络 Head 生成边界框。接着对 Voxel 特性举行池化,并将其作为自注意力模块的输入以细化边界框。
其他方法选择将 Transformer 应用于点云表现。在文献[72]中,Sheng等人用自注意力模块增补了两阶段的三维检测器。这种方法首先通过基于3D Voxel 的空间 Proposal 网络生成 Proposal ,然后将原始点云和 Proposal 作为输入送到逐通道 Transformer 中,以使 Proposal 富含全局上下文信息。逐通道 Transformer 包罗一个 Proposal 到点的编码模块和一个逐通道解码模块,将编码特性转换为最终的物体 Proposal ,包罗置信度预测和边界框回归。另一方面,PLNL-3DSSD[95]利用局部和非局部注意力与集合抽象模块来建模物体间的关系。
别的,许多方法将 Transformer 应用于多视图图像或鸟瞰图(BEV),从而得益于 Transformer 在图像应用方面的进展。Transfusion[88]利用卷积 Backbone 网络提取激光雷达BEV特性图以及图像特性图。基于 Transformer 的解码器接收目标 Query 作为输入,并利用激光雷达信息输出初始边界框预测。接下来,空间调制交织注意力机制将相机图像特性与激光雷达目标 Query 举行融合。SCANet[86]利用两个VGG-16编码器从RGB图像和点云鸟瞰图中提取特性。然后利用空间通道注意力模块提取多尺度和全局上下文特性以重新校准特性。BoxeR[91]引入了边界框注意力,它学习在边界框内网格上采样的点的注意力权重。在2D中,它利用卷积编码器特性作为 Proposal 输入并生成目标 Query 。然后,利用实例注意力将目标 Query 解码为边界框。它学习的注意力权重对旋转是稳定的,因此另一个 Transformer 用于在鸟瞰图中生成3D边界框。近来,MonoDETR[87]修改了DETR以从单目图像生成3D边界框。修改包罗将深度特性添加到 Transformer 的输入中。深度特性是利用深度预测器和深度编码器生成的。 Transformer 包罗一个深度感知解码器,具有自注意力以及视觉和深度交织注意力。VISTA[93]提出用卷积算子替换常规注意力模块中的线性投影。它将所提出的注意力应用于将 Voxel 化的3D场景特性投影到两个视图,即鸟瞰图和范围视图。
对于点云视频,Yuan等人[81]提出了一个时间通道编码器和一个空间解码器,用于基于3D激光雷达的视频目标检测。时间通道编码器用于利用多头注意力机制学习不同帧之间的关系。空间解码器也利用多头注意力机制来聚合相邻视频帧的干系信息。
由于不同的表征大概提供互补的信息,一些研究工作利用了具有多种表征的 Transformer 模子。SA-Det3D [75] 提出了一种增强方法,将基于点的点云、 Voxel 和柱状的多种卷积方法与自注意力模块相团结。它引入了两种自注意力的变体:一种是完全自注意力模块,它是一种成对的自注意力机制;另一种是可变形自注意力模块,它学习在随机采样位置上的形变,以覆盖最具代表性和信息性的部分。另一方面,M3DETR [76] 在统一的 Transformer 架构下,从原始点云、 Voxel 和鸟瞰图中聚合信息。 Transformer 使得多表征、多尺度、多位置特性关注之间的交互成为大概。Dao等人[82]提出利用向量注意力来细化基于 Voxel 的区域 Proposal 网络。与多头注意力相比,向量注意力为不同的点特性通道学习不同的权重,因此能够将更丰富的信息捕获到感爱好区域和汇聚点中。CAT-Det [89] 将应用于点云的Pointformer与应用于RGB图像的Imageformer相团结。这两种模态通过跨模态特性交互和多模态特性聚合的 Transformer 举行互补。另一方面,Yin等人[85] 利用空间特性在由柱状离散化的点云上编码信息。空间特性是通过基于图的运算和2D CNN从给定的点云中提取的。来自一连帧的特性随后通报到一个由空间 Transformer 注意力和时间 Transformer 注意力组成的时空 Transformer 模块中。
其他方法利用 Transformer 来融合或精化由非 Transformer 方法生成的信息。DETR3D [73] 利用多视图RGB图像来检测3D空间中的物体。它利用了基于非 Transformer 的2D特性提取以及3D框预测。它仅利用多头注意力通过团结物体交互来精化物体 Query ,雷同于DETR [74]。PETR [90] 首先利用2D Backbone 网络(ResNet)从多视图图像中提取特性。然后,它利用相机视锥空间生成3D网格栅格和3D空间中的坐标。2D图像特性和3D坐标随后通过基于MLP的编码器融合,以生成3D位置感知特性。一个 Transformer 解码器然后根据它们与3D位置感知特性的交互来更新物体 Query 。
4.3 3D Segmentation

三维分割旨在根据给定的语义类别对构成元素的三维数据举行分割。它必要克服各种挑衅,如类别不均衡、尺寸变革和形状变革。在本节中,作者将方法根据输入数据范畴举行分类。首先,作者回首了那些以单个目标的3D表现为输入并对其部分举行分割的方法。接下来,作者观察那些对包含多个目标的完整场景举行分割的方法。然后,作者先容从视频提供点云分割的方法。别的,作者还回首了分割三维医学图像的方法。这些方法的 Transformer 计划概述展示在表3中。

目标部分分割。要对给定的点实行3D语义分割,每个点都必要一个标签。许多学习点云分类的点状特性的方法可以用于语义分割。这个过程在相对较小的点云的部分分割方法中很常见。已经开辟了许多 Transformer 模子用于点云分类和语义分割,包罗:关注形状上下文网[47],杨等[51],Point2Sequence[113],Point Transformer[44],点云 Transformer (PCT)[41],点 Voxel Transformer (PVT)[54],自适应小波 Transformer [56],以及双 Transformer [58]。
完整场景分割。快速点 Transformer [78]提出加快局部自注意力网络,因为每个这样的模块通常必要找到k近邻点,这是盘算上昂贵的。所提出的自注意力模块在 Voxel 散列架构上学习点云。 Voxel 散列答应快速选择邻域,并与重心感知 Voxel 化和去 Voxel 化相团结,以保存一连坐标的嵌入。另一方面,分层 Transformer [96]首先利用点嵌入模块[28]聚合局部结构信息。然后,它利用具有多个下采样层的基于 Transformer 的分层结构来得到多级特性,这些特性然后逐层上采样,雷同于U-Net[114]。所提出的 Transformer 利用分层策略举行关键采样,以增加感受野并聚集长距离上下文(见图8)。Segment-Fusion[97]接纳图形分割方法将点及其相应特性分组到具有分段特性的段中。这些特性随后通过堆叠的注意力编码块举行融合,其中注意力矩阵还与邻接矩阵相乘,以思量各段之间的毗连。基于注意力的输出随后利用连通组件算法分组到目标实例中。

表3 利用 Transformer 架构的3D分割方法概述。作者将3D分割方法分为三类:(1)对完整场景(而不是单个目标部分分割)实行3D语义分割的方法,(2)全景分割,以及(3)医学成像分割。与由LiDAR和RGB-D传感器收集的稀疏数据不同,三维医学图像由密集规则网格表现。
Transformer 也已被应用于点云的全景分割。徐等[100]首先为给定的点云生成点状特性和稀疏 Voxel 特性。然后,通过跨尺度注意力模块聚合 Voxel 特性,这答应捕获长距离…
range relationship of object context and increases regression accuracy for the over-segmented large objects.

点云视频分割。P4Transformer [98] 将 Transformer 应用于点云视频,用于三维动作识别和四维语义分割。它首先采样并构建局部的时空区域,并利用4D卷积将它们编码为一个特性向量,该特性向量可以被 Transformer 处理。[99]中,Wei等人首先利用来自[25]的集合抽象层提取特性,并利用分辨率嵌入模块在提取的特性中保存几何信息。然后对相邻帧的特性应用卷积,将它们分组为 Patch 。这些 Patch 作为输入送到时空 Transformer 中,以捕获三维动作识别和四维语义分割任务上下文信息。
3D医学图像分割。UNETR [43] 将输入的3D体积分成一系列匀称的非重叠 Patch ,并利用线性层将它们投射到嵌入空间。然后应用 Transformer 学习输入体积的序列表现(编码器)并捕获全局多尺度信息。[48]中,CoTr利用CNN编码器从输入的3D医学图像中提取多尺度特性图。特性图与位置编码相团结,并利用可变形自注意力 Transformer 举行处理。然后利用CNN解码器将这些特性上采样到原始分辨率。
[102]中,T-AutoML提出了一种主动搜刮算法,用于找到最佳的神经网络架构、超参数和增强方法,用于3D CT图像中的病变分割。它利用 Transformer 模子,因为其能够处理不同的嵌入长度。另一方面,D-Former [101] 提出了一种基于局部和全局注意力的模块,以在不增加 Patch 数量的情况下增加信息交互的范围。膨胀 Transformer 对局部和全局范围内捕获的成对 Patch 关系应用自注意力。它还应用动态位置编码来嵌入相对和绝对位置信息。
近来,Transfuse [49] 提出了一个融合模块,用于融合来自两个分支的信息:一个CNN分支,它从局部到全局编码特性,另一个是 Transformer 分支,它从全局自注意力开始,然后恢复局部信息。[103]中,Karimi等人首先将输入的3D图像块划分为3D Patch 。然后为每个 Patch 盘算一维嵌入并通过基于注意力的编码器预测中心 Patch 的分段。SpecTr [104] 以一系列光谱图像作为输入,并交替利用深度卷积、光谱归一化和具有稀疏束缚的 Transformer 处理它们。然后在编码器中利用雷同于3D U-Net [115]的带有跳跃毗连的解码器。另一方面,TransBTS [105] 利用3D CNN生成捕获空间和深度信息的特性图,然后利用 Transformer 编码器建模长距离的全局上下文依赖。 Transformer 输出交替上采样、堆叠和卷积以产生分割标签。Segtran [106] 利用CNN层提取特性,作为输入送到压缩和扩展 Transformer 层以学习全局上下文。在 Transformer 之前应用特性金字塔网络以增加空间分辨率,在 Transformer 之后上采样到原始分辨率。
周等人通过应用nnFormer [107] 中的局部和全局体积自注意力操纵,将卷积和自注意力操纵相团结。它还提出利用跳注意力,这雷同于UNet-like架构中的跳跃毗连。BiTr-UNet [108] 在3D UNet架构的瓶颈处应用 Transformer 块,即在3D CNN编码器之后和上采样层之前。它将CBAM [116] 集成到卷积层中,并将其扩展到3D CNN。AFTer-UNet [109] 利用CNN编码器编码相邻切片组,然后应用轴向融合 Transformer 。轴向融合 Transformer 融合了层间和层内信息,然后通报到CNN解码器举行分割。Peiris等人[110] 提出了一种具有局部和全局自注意力层的编码器块计划。它利用基于窗口的自和交织注意力解码器,其中两种注意力机制都利用一个共享的 Query 投影。别的,它在解码器中提出了一种凸组合方法,并辅以傅里叶位置编码。Swin UNETR [111] 将多模态输入数据投影到1D嵌入序列,并将其作为输入送到由分层Swin Transformer [112]组成的编码器中。Swin Transformer利用移位窗口在多个分辨率上盘算自注意力,并具有到FCNN解码器的跳跃毗连。
4.4 3D Point Cloud Completion

表格4简要总结了一些利用 Transformer 结构的3D点云补全方法。图9展示了PoinTr [117]的结构。PoinTr [117]将点云补全视为一种集合到集合的翻译任务,并接纳一种几何感知 Transformer 来预测缺失的点云。与平凡的 Transformer 相比,几何感知 Transformer 包含两个分支,其中一个分支接纳自注意力机制提取语义特性,另一个分支接纳kNN模子提取几何特性。两个分支的输出特性被融合以生成几何感知 Transformer 的输出特性。Wang等人[118]将提出的下采样和上采样操纵整合到 Transformer 编码器-解码器结构[117]中,以实行点云补全。下采样操纵不是接纳最大池化,而是接纳邻居池化来选择激活度最高的特性。在[119]中,Wang等人引入了一个几何细节感知模块和一个自特性增强模块,以捕获局部和全局信息,避免局部近邻操纵。
表格4 利用 Transformer 的前沿3D点云补全方法。这些方法接纳各种输入表现,利用纯或混淆架构,并在局部或全局应用 Transformer 。
作者注意到,一些方法仅利用 Transformer 编码器或解码器举行3D点云补全。Xiang等人[120]在解码器中提出了一种跳转 Transformer 模块,以捕获点反卷积的上下文。跳转 Transformer 旨在在点生成阶段利用注意力机制从先前的解码层学习空间上下文。近来,Su等人[121]利用 Transformer 编码器从粗略点云生成中提取上下文信息。之后,利用点云上采样生成精致点云。在[122]中,Lin等人利用 Transformer 编码器学习语义亲和性信息,然后利用形变图点生成解码器。一些方法思量在应用 Transformer 举行点云补全时降低盘算成本。Mittal等人[123]提出首先将高维3D形状映射到低维潜在空间,然后举行基于 Transformer 的自回归建模。另一方面,Yan等人[124]利用一种新颖的向量量化深度隐式函数对3D形状举行稀疏编码,并接纳 Transformer 模块预测位置和内容的条件分布。
一些方法接纳 Transformer 中的注意力模块来辅助特性提取。例如,Lyu等人[125]接纳注意力操纵而不是池化操纵来聚合局部特性。Cao等人[126]在全球细化模块中添加了一个自注意力层,用于增强细节并避免失真。
4.5 3D Pose Estimation

表5总结了利用 Transformer 结构的干系三维姿态估计方法。一些针对基于视频的姿态估计融合了时空信息的方法已经得到发展。郑等人[127]提出了一种时空 Transformer 编码器模块PoseFormer,用以建模帧内的局部关系和帧间的全局关系。图10展示了PoseFormer的架构。哈桑宁等人[128]指出PoseFormer存在局部性差的问题,并提出了两种新的交织交互模块以整合局部性和交互作用。详细来说,交织关节交互模块用于编码帧内的局部部件信息,而交织帧交互模块用于编码跨帧的关节信息。另一方面,李等人[129]接纳了一个简单的 Transformer 来利用长距离信息,并计划了一个跨步 Transformer 渐渐将不同帧的长距离信息聚合到一个单一的三维表现中。[130]中, Shan等人引入了一种自监视的预训练方法,该方法利用 Transformer 举行三维人体姿态估计。李等人[132]提出了一种多假设 Transformer 来学习多个姿态假设的时空表现。在多假设 Transformer 中,有三个模块:多假设生成(MHG)、自假设精化(SHR)和跨模块交互(CHI)。MHG旨在探索帧内的空间信息,而SHR和CHI旨在探索跨帧的时间信息。赵等人[133]开辟了一种面向图的 Transformer 来建模不同关节之间的关系,该 Transformer 将图卷积和注意力团结在一起。上述方法都利用 Transformer 来预测视频中中心帧的单个三维姿态估计(称为seq2frame)。与这些方法不同,张等人[131]提出了MixSTE用于三维姿态序列估计,它对视频中的所有帧举行三维姿态估计(称为seq2seq)。MixSTE将每个2D关节视为一个标记,并以交替的方式实行时空注意力。


表5 利用 Transformer 结构的三维姿态估计干系方法的总结。有些方法关凝视频或多帧,有些方法关注多视角帧,有些方法以单深度或RGB图像作为输入,另有些方法是用于6D姿态估计。
而不是依赖于单一视角,一些方法利用多视角举行三维姿态估计。He等人[134]提出了一种对极 Transformer [146],用以增强参考视角的特性,并与源视角中对应点的特性相团结。Tyszkiewicz等人[135]利用多帧特性和空的体积特性作为输入,并接纳光线追踪 Transformer 渐渐交换信息以举行三维表现。
一些方法从深度或RGB图像估计三维姿态。Huang等人[136]引入了一种非自回归手部 Transformer (NARHT),以避免在 Transformer 中举行次序推理,并实现了快速推理速度。受非自回归 Transformer [147]的启发,NARHT利用结构化参考提取器预测参考姿态,并并行建模输入点与参考姿态之间的关系。程等人[137]提出了一种基于注意力的置信度网络,用于预测每个虚拟视图的置信度,并选择对基于深度的手部姿态估计重要的视图。[138]中,Lin等人提出了一种渐进维度降低 Transformer ,用于预测基于RGB的人体姿态和网格重修中每个关节的3D坐标。上述方法主要关注单一目标的姿态估计。Huang等人[139]开辟了一种手部-目标变换网络,利用手部和目标之间的团结干系性举行手部-目标姿态估计。别的,还提出了一些多目标姿态估计方法。Hampali等人[140]首先提取一组关键点,其次将它们的外观和空间编码作为输入到 Transformer 中,用于3D手部和目标姿态估计。[141]中,郭等人利用自注意力模块,通过整合其他人的嵌入来改善每个个体的嵌入。近来,Ugrinovic等人[142]利用集合 Transformer [148]编码多个人的全局信息,以改善多人姿态估计。
除了3D姿态估计,也有少数模子被开辟用于形貌6D姿态信息。邹和黄[143]计划了一个双分支的 Transformer 编码器-解码器结构,分别从图像和点云中提取特性,并根据两个分支的聚合特性举行6D姿态估计。党等人[144]接纳基于学习的点云配准方法来举行6D姿态估计,其中在点云配准架构DCP[149]中利用 Transformer 来团结两个点输入的特性。古德温等人[145]开辟了一种新颖的零样本类别级6D姿态估计任务,并接纳自监视 Transformer 举行特性提取。
4.6 Other Tasks

三维目标跟踪。三维点云目标跟踪旨在给定一个模板点云的情况下,在三维空间中定位目标。近来,一些基于 Transformer (transformers)的3D跟踪方法得到了发展。Cui等人[150]利用 Transformer 来利用点云内的局部和全局信息,以及跨不同点云的3D跟踪预测。同样,Zhou等人[151]接纳自注意力模块来捕获长距离依赖关系,以及一个交织注意力模块举行粗略匹配。
三维运动预测。3D运动预测旨在根据已往的运动汗青来预测未来的姿态。Mao等人[152]提出了一种运动注意力模块,以捕获长期运动汗青中的运动关系。雷同于3D姿态估计,一些方法[153],[154],[155]利用 Transformer 来捕获关节之间的空间和时间长距离依赖。Gonzalez等人[156]将姿态序列作为输入,并利用非自回归 Transformer [147]举行运动预测。Zheng等人[157]提出了一个以自我为中心的运动预测数据集,并为这一任务开辟了跨模态 Transformer 模块。
三维重修。Wang等人[158]专注于多视角3D目标重修,并提出了一种用于特性提取和融合的3D体积 Transformer 。Zanfir等人[159]利用THUNDR模子从单目图像中重修人体3D形状。THUNDR预测并规范了一个中间的标记表现,通过CNN特性提取和 Transformer 细化。Mahmud和Frahm[160]开辟了一种单视角和多视角目标重修方法,称为VPFusion,该方法基于 Transformer 举行特性融合。VPFusion接纳 Transformer 实行跨视角特性融合。
表6:3D视觉任务的常见数据集。这些数据集涵盖了3D应用的范围:分类、分割、检测、补全和姿态估计。它们利用不同的传感器收集室内场景、室外场景和目标。

点云配准。DCP [149]利用自注意力和条件注意力来近似两个点云之间的组合匹配。在[161]中,Fu等人先容了一种基于图匹配的点云配准技能。它利用 Transformer 生成图的边。REGTR [162]通过预测每个点位于两个扫描重叠区域的概率,利用 Transformer 举行点云配准。
5 BENCHMARK PERFORMANCE

为了理解将Transformer架构融入3D视觉流水线中的结果,与先前方法举行比较至关重要。在本节中,作者将在基准数据集上展示基于Transformer的架构与开始进的非Transformer方法的定量比较。作者首先提供数据集和评估指标的详细信息,然后展示不同任务的定量结果。
5.1 Datasets

数据集在盘算机视觉任务的发展中饰演着两个重要角色。首先,标注使深度学习模子能够办理具有挑衅性的问题。其次,数据集为定量比较提供了基础,用以衡量所提出方法的有效性。已经为3D视觉任务开辟了浩繁数据集。对于3D物体分类,ModelNet40 [163]被广泛利用,ScanObjectNN [166]也同样受接待。对于3D分割任务,ShapeNet [164]提供了部分分割的标注,而S3DIS [165]和ScanNet [168]则提供了室内场景的分割数据。对于室内3D目标检测,SUN RGB-D [167]为单个RGB-D帧中的场景提供了定向边界框标注,而ScanNet [168]也可以通过将实例分割标签转换为轴对齐边界框标注来利用。对于户外场景中的3D目标检测,KITTI [169]和nuScenes [170]是最常用的数据集。对于3D点云补全,Completion3D [171]和PCN [172]是两个最广泛利用的数据集。对于3D姿态估计,Human3.6M [173]和MPI-INF-3DHP [174]是最受接待的数据集之一。这些数据集的主要属性展示在表6中。
表7 在ModelNet40基准上的形状分类结果(P:点,N:法线,*:预训练)。

5.2 Object Classification

作者在表7中展示了基于 Transformer 的3D目标分类方法在ModelNet40数据集[163]上的基准性能。该数据集由9843个训练CAD模子和2468个测试CAD模子组成,分为40个类别。作者将基于 Transformer 的方法与开始进的不基于 Transformer 的方法举行了比较。对于给定的CAD模子,目标分类方法统一采样固定命量的点,在某些情况下,还会将法线信息附加到输入中。别的,一些方法选择在另一个数据集上以自监视的方式预训练分类网络[61],[63]。在ModelNet40上的定量评估显示了基于 Transformer 架构的竞争性结果。多种 Transformer 方法的准确度已经超过了开始进的不基于 Transformer 的方法。
表9展示了在ShapeNet[164]上的目标部分分割以及S3DIS[165]上的场景语义分割结果。作者将基于 Transformer 的方法与开始进的不基于 Transformer 的方法举行了比较。对于部分分割,作者展示了实例平均交并比(IoU),而对于场景分割,作者报告了平均准确度(mAcc)和平均交并比(IoU)。

基于 Transformer 的方法以及开始进的不基于 Transformer 的方法在ScanObjectNN数据集[166]上的分类准确度显示在表8中。这个数据集代表了包含配景和遮挡的真实世界场景中的点云。作者展示了在ShapeNet数据集[164]上举行预训练并在ScanObjectNN上举行微调的结果。基于 Transformer 的方法相较于不基于 Transformer 的方法显示了性能的改进。
5.3 3D Segmentation

作者展示了基于 Transformer 的方法在两个范畴:目标部件分割和完整场景分割的分割的基准性能。尽管这两个范畴的任务相似,但准确表现形状信息所需的数据量通常不同。
对于3D目标部件分割,作者在广泛利用的ShapeNet数据集[164]上举行评估。该数据集包含14,007个点云目标的训练样本和2874个测试样本。目标分为16个不同的类别,每个类别标有2到6个部分,共计50个部分。在评估时,每个类别的交并比(IoU)盘算为该类别所有目标的平均IoU。别的,实例mIoU表现所有目标实例的平均IoU。
在ShapeNet数据集上的定量评估如表9所示。险些所有的基于 Transformer 的方法都超过了基于点的开始进方案。与仅必要对目标的整体理解举行类别标注的分类任务相比,部件分割必要局部形状理解以举行适当的分割。这表明 Transformer 架构中对全局上下文的增强关注支持局部形状理解。
对于场景语义分割,作者利用了斯坦福大规模3D室内空间数据集(S3DIS)[165]。它利用Matterport扫描仪收集,包含了3个不同建筑中3个室内区域的271个房间的3D点云。在评估时,一些方法举行6折验证,而其他方法则利用区域5作为测试集,其他区域来训练模子。由于区域5与其他区域不同,后一种方法更为常见,因为它更能显示方法对不同场景的泛化能力。在S3DIS数据集上的定量比较如表9所示。定量评估显示,早期接纳注意力机制[47]举行3D分割的方法并没有比非注意力方法显示出显著的性能提升。近来,分层 Transformer [96]实现了显著的改进,目前在S3DIS数据集上成为3D语义分割的开始进技能。性能的提升可以归因于有效的 Transformer 实现,它在局部上下文中应用 Transformer 以捕获精致的形状信息,并利用分层结构和稀疏远距离采样,通过大接收域捕获全局上下文。
5.4 3D Object Detection

对于室内3D目标检测,SUN RGB-D数据集[167]为单个RGB-D帧中的场景提供了3D边界框标注。它包含了10,335个带有模态和定向边界框的RGB-D帧,涉及37个目标类别。然而,标准的评估协议是仅利用10个常见类别举行训练和评估。训练集由5285个帧组成,而测试集有5050个帧。
在SUN RGB-D数据集上,将 Transformer 模子与开始进的VoteNet[84]和H3DNet[177]方法举行定量评估的结果显示在表10中。尽管表现最差的 Transformer 模子是3DETR,但它是一个直接的 Transformer 编码器息争码器,没有利用3D目标检测中近来的 技能。尽管如此,3DETR的表现与VoteNet方法相当,后者已被其他方法[83]、[177]、[178]所接纳。桥接 Transformer (BrT)[92]在SUN RGB-D数据集上取得了最佳性能。它得益于RGB图像的可用性以及 Transformer 对图像和点云的适用性,从而在两个范畴之间桥接学习过程。

表11在KITTI 3D目标测试集[169]上与开始进方法的性能评估。结果以mAP(平均精度)报告,具有40个召回点,对于汽车类别利用0.7的IoU(交并比)阈值,其他类别为0.5。(L:激光雷达,C:颜色)

ScanNet[168]数据集由基于多个RGB-D帧重修的3D网格表现的场景组成。原始的ScanNet数据集不包含3D边界框标注,基准中的隐藏测试集不包罗3D目标检测的评估。因此,常见的做法是生成与提供的3D实例分割 Mask 对齐的轴对齐3D边界框。训练集包含1201个扫描,用于评估的验证集有312个扫描。
在表10中展示了在ScanNet数据集上的性能评估结果。桥接 Transformer (Bridged Transformer,BrT)[92]在@mAP@IoU=0.5的指标上取得了最高结果。除了3D扫描数据外,它还利用了用于重修ScanNet场景的25,000帧图像。必要提取用于 Transformer 输入的图像块,该 Transformer 桥接图像和点云之间的信息。对于那些不利用额外的2D图像作为输入的方法,Liu等人[46]通过一种无分组基于 Transformer 的方法取得了最佳性能。这种方法利用PointNet++提取局部点特性,而 Transformer 则全局生成边界框。
对于户外3D目标检测,KITTI数据集[169]是用于主动驾驶的最广泛利用的数据集之一,并提供3D目标检测标注。它包含7481个训练样本和7518个测试样本,并在简单、中等和困难难度上利用标准平均精度(AP)。在KITTI基准上的性能评估结果展示在表11中。作者还展示了每种方法中利用的输入,大概是仅LiDAR、仅RGB或两者都有。仅依赖RGB的方法的性能不如利用LiDAR信息的方法。由于任务是在3D场景中定位目标,仅RGB缺乏准确放置边界框所需的必要3D信息。尽管如此,基于 Transformer 的架构MonoDETR[87]的性能超过了Monoflex[181]。对于LiDAR输入,PDV[94]在“简单”汽车类别上取得了最佳性能。它利用自注意力模块捕获网格点的长距离依赖关系,其中特性是通过利用3D稀疏卷积盘算的。对于中等和困难难度,Voxel Transformer[42]和Voxel Set Transformer[79]取得了最佳性能,这得益于将注意力机制集成到特性提取模块中。
表12在nuScenes 3D目标检测测试集[170]上展示了基于 Transformer 的方法与开始进的非 Transformer 方法的性能评估。作者报告了10个类别的检测mAP。

表13在Completion3D[171]和PCN[172]上对点云补全的性能评估。在Completion3D上利用L2 Chamfer距离作为度量标准,而在PCN上利用L1 Chamfer距离。

另一个广泛用于三维目标检测的户外数据集是nuScenes [170],其中包含1000个场景,包罗交通繁忙和具有挑衅性的驾驶情况。作者在表12中展示了各种方法的检测结果。作者将利用来自激光雷达和/或图像深度的 Transformer 模子与开始进的非 Transformer 方法举行了比较。 Transformer 方法在基于激光雷达和基于图像的三维目标检测方面均显示出性能的提升。最佳性能由Transfusion方法[88]实现,该方法通过 Transformer 融合了来自深度和彩色模态的信息。结果显示, Transformer 能够从这两种模态中学习到互补信息。
5.5 3D Point Cloud Completion

正如先前讨论的,Completion3D [171] 和 PCN [172] 通常用于三维点云补全。Completion3D 数据集包含8个类别的30,958个点云模子。部分点云和完整点云的大小均为 。部分三维点云是来自 空间的深度图像的反投影,而在 Completion3D [171] 上举行性能评估时利用了L2 Chamfer距离。表13(中间列)展示了在 Completion3D 数据集 [171] 上,一些非 Transformer 方法和基于 Transformer 的方法的点云补全性能。PCN [172] 和 PMP-Net [185] 黑白 Transformer 方法,而 PoinTr [117]、Snowflakenet [120]、PointAttN [119] 和 Wang 等人 [118] 是基于 Transformer 的方法。显然,对于这项任务,基于 Transformer 的方法在 Completion3D 上的表现更佳。在这些基于 Transformer 的方法中,PointAttN [119] 和 Wang 等人 [118] 的 L2 Chamfer 距离最小(即6.63和6.64),这是因为它们接纳 Transformer 来提取全局和局部信息,以进步性能。
表14 在 Human3.6M [173] 数据集上,利用2D姿态检测作为输入,根据协议1和2举行的三维姿态估计性能比较。

表15 在 MPI-INF-3DHP [174] 数据集上的三维姿态估计性能比较。

PCN [172] 数据集包含8个类别的30,974个点云模子。部分点云的点的数量少于20,48个,而完整点云则有16,384个点。在以下实验中,利用 L1 Chamfer 距离对 PCN 数据集 [172] 举行性能评估。表13(右列)展示了在 PCN [171] 上的点云补全性能。在这些基于 Transformer 的方法中,Snowflakenet [120] 和 PointAttN [119] 的 L1 Chamfer 距离最小(即7.21和6.86)。
5.6 3D Pose estimation

Human3.6M [173] 和 MPI-INF-3DHP [174] 是两种广泛用于三维姿态估计的数据集。Human3.6M数据集[173]包含360万个视频帧,在室内场景的4个不同视角下录制。有11位不同的演员实行了17个动作类别。性能评估接纳两种度量标准(MPJPE和P-MPJPE)。平均关节位置偏差(MPJPE)度量,即协议1,是通过盘算预测关节和真实关节之间的平均欧氏距离(以毫米为单位)得出的。P-MPJPE度量,即协议2,是颠末刚体对齐后处理的MPJPE。表14展示了在Completion3D [171]上,一些非 Transformer 方法和基于 Transformer 的方法在三维姿态估计性能上的比较。与非线性转换方案相比,大多数基于 Transformer 的方法通常在协议1和协议2下都有更好的性能。在这些基于 Transformer 的方法中,MixSTE [131]表现最佳,协议1下的平均MPJPE为42.4,协议2下为33.9。MixSTE由时间 Transformer 和空间 Transformer 组成,两个 Transformer 以交替方式举行。时间 Transformer 用于学习每个关节的时间关系,而空间 Transformer 用于构建不同关节的空间干系性。
MPI-INF-3DHP数据集[174]包含130万个帧,在室表里场景中录制。有8位不同的演员实行了8个动作类别。表15展示了某些方法的结果。性能评估接纳了三种度量标准(MPJPE、PCK和AUC)。PCK度量是准确关键点百分比的3D扩展,阈值为 ,而AUC是在PCK阈值范围内盘算的。在这些基于 Transformer 的方法中,P-STMO [130]表现最佳,PCK为97.9,AUC为75.8,MPJPE为32.2。P-STMO接纳自监视预训练 Transformer 举行姿态估计。
6 Discussion and Conclusion

将Transformer整合到3D应用流程中已经在浩繁范畴显示出其有效性。鉴于在多个数据集上的竞争性表现,Transformer被证明可以成为卷积和多层感知机操纵的合适替代品,这归功于其能够学习长距离依赖关系。然而,针对3D处理的通用Transformer Backbone 网络仍然缺失。与接纳Transformer举行图像处理的方法不同,后者有许多方法依赖于焦点方法[69]、[112],大多数基于Transformer的3D方法利用不同的Transformer计划和整合方式。开辟一个用于处理点云并同时在局部和全局尺度上学习丰富特性的通用Transformer方法黑白常有意义的。Transformer必要学习精致的形状信息,同时在整个场景全局范围内操纵以利用场景上下文。
别的,大多数基于Transformer的3D方法将3D数据子采样到固定大小的输入。在思量到给定像素数量的情况下,固定输入大小在图像中是常态,但3D输入大小通常会有所变革。
因此,一个合适的采样策略对于(1)保存学习精致信息的能力,(2)无论场景大小怎样,保持雷同物体结构,(3)为Transformer处理生成可行数据大小来说至关重要。尽管天然语言处理(NLP)处理可变大小的输入,但句子中的单词都会被标记化,输入信息并未丢失。另一方面,3D输入采样大概会遗漏潜在的重要信息,而且取决于场景的大小。
一个值得探索的采样策略是利用数据驱动的方法。例如,可以利用输入的小样本作为种子,举行灵活且数据驱动的采样。这雷同于之前的输入聚合方法,但采样将适应输入信息,原始信息始终是可以访问的。
位置嵌入的选择也同样关键。3D字段中的位置信息不仅对信息序枚举行排序,而且还是理解形状信息的主要特性。尽管大多数3D视觉方法将3D位置作为输入到Transformer的一部分,但此信息大概必要先举行编码,而且在颠末多层特性提取后大概不再明确可用。因此,适当的位置嵌入将有助于学习任务。位置嵌入的选择应资助模子学习平移稳定性并保存来自其他场景元素的上下文信息。
现有的Transformer模子依赖于训练过程中的数据增强。尽管许多Transformer方法利用现成的3D增强方法,但一些3D增强技能已经显示出相对于常见的非Transformer方法的显著改进[188]、[189]。雷同的趋势也大概有利于基于Transformer的方法,通过利用得当于训练Transformer的特定于3D的增强。
与NLP或2D图像处理相比,3D视觉较少依赖于预训练。这在基于Transformer的方法中也可以观察到,预训练很少被利用。大规模的全监视或自监视预训练有助于进步2D模子的性能以及鲁棒性。雷同的预训练模子也将有利于3D范畴。这可以通过在完全标记的大型数据集上举行学习来实现,雷同于2D中的ImageNet,大概通过自监视学习。
   参考

  [1]. 3D Vision with Transformers: A Survey.
  零基础怎样学习大模子 AI

领取方式在文末
为什么要学习大模子?

学习大模子课程的重要性在于它能够极大地促进个人在人工智能范畴的专业发展。大模子技能,如天然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模子课程,可以掌握计划和实现基于大模子的应用系统所需的基本原理和技能,从而提升本身在数据处理、分析和决定制定方面的能力。别的,大模子技能在多个行业中的应用日益增加,掌握这一技能将有助于进步就业竞争力,并为未来的创新创业提供坚实的基础。
大模子现实应用案例分享

①智能客服:某科技公司员工在学习了大模子课程后,成功开辟了一套基于天然语言处理的大模子智能客服系统。该系统不仅进步了客户服务效率,还显著降低了人工成本。
②医疗影像分析:一位医学研究职员通过学习大模子课程,掌握了深度学习技能在医疗影像分析中的应用。他开辟的算法能够准确识别肿瘤等病变,为医生提供了有力的诊断辅助。
③金融风险管理:一位金融分析师利用大模子课程中学到的知识,开辟了一套信用评分模子。该模子资助银行更准确地评估贷款申请者的信用风险,降低了不良贷款率。
④智能推荐系统:一位电商平台的工程师在学习大模子课程后,优化了平台的商品推荐算法。新算法进步了用户满意度和购买转化率,为公司带来了显著的增长。

这些案例表明,学习大模子课程不仅能够提升个人技能,还能为企业带来现实效益,推动行业创新发展。
学习资料领取

如果你对大模子感爱好,可以看看我整合而且整理成了一份AI大模子资料包,必要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发


部分资料展示

一、 AI大模子学习门路图

整个学习分为7个阶段

二、AI大模子实战案例

涵盖AI大模子的理论研究、技能实现、行业应用等多个方面。无论您是科研职员、工程师,还是对AI大模子感爱好的爱好者,皆可用。

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。


如果二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模子资源包,这里全都有!无偿分享!!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

飞不高

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表