近一个月Mamba文章会集爆发,基于之前的发展,已经开始大规模应用在相关的卑鄙使命上。今天就带各人盘点一下Mamba在自动驾驶相关使命中的应用,涉及3D检测、点云分割、跟踪、轨迹预测、Occ、深度估计、检测等多个方向!
从团体上看,Mamba在序列使命中的应用更多;性能方面还未能逾越Transformer的方法,但上风在于速度和精度的balance,值得将来更进一步的探索! MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders
论文链接:https://arxiv.org/abs/2408.15101v1
代码链接:https://github.com/EnVision-Research/MTMamba
港科技的工作:多使命密集场景理解为多个密集预测使命训练模子,具有广泛的应用场景。捕捉恒久依赖性和增强跨使命交互对于多使命密集预测至关重要。本文提出了一种基于Mamba解码器的多使命场景理解新架构MTMamba++。它包含两种范例的焦点块:自使命Mamba(STM)块和跨使命Mama(CTM)块。STM通过利用状态空间模子来处置惩罚远程依赖性,而CTM显式地对使命交互进行建模,以促进跨使命的信息互换。我们设计了两种范例的CTM块,即F-CTM和S-CTM,分别从特征和语义的角度增强跨使命交互。在NYUDv2、PASCAL Context和Cityscapes数据集上的实验表明,MTMamba++的性能优于基于CNN和Transformer的方法。 Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics
论文链接:https://arxiv.org/abs/2408.12609
在自动体系领域,正确预测附近车辆和行人的轨迹对于确保安全和运营服从至关重要。本文介绍了一种基于状态空间动态体系建模的轨迹预测新方法,该方法为智能体赋予了具有有形物理含义的模子。为了提高动态体系中状态估计的精度,本文还提出了一种新的控制变量建模技术。该技术利用了一种新引入的模子,称为“Mixed Mamba”,来推导初始控制状态,从而提高了这些变量的预测精度。此外,所提出的方法巧妙地将图神经网络与状态空间模子相联合,有用地捕捉了多智能体交互的复杂性。这种组合为预测一系列场景中的多智能体轨迹提供了一个强盛且可扩展的框架。综合评估表明,该模子在各种指标和数据集上优于几个既定的基准,突显了其在推进自动驾驶体系轨迹预测方面的巨大潜力。 MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering
论文链接:https://arxiv.org/abs/2408.11464v1
项目主页:https://github.com/Hub-Tian/MambaOcc
中科院&美团的工作:占用率预测引起了人们的广泛关注,并在自动驾驶体系的发展中表现出巨大的上风。占用预测在几何和语义信息方面带来的细粒度情况表现,促进了开放场景下的一般感知和安全规划。然而,在利用基于体素的三维密集表现和基于Transformer的二次留意力的现有工作中,它也带来了高昂的盘算成本和繁重的参数。为了应对这些挑战,本文提出了一种基于Mamba的占用预测方法(MambaOcc),该方法接纳BEV特征来减轻3D场景表现的负担,并接纳线性Mamba风格的留意力来实现高效的远程感知。此外,为相识决Mamba对序列序次的敏感性,我们提出了一种具有可变形卷积的局部自适应重排序(LAR)机制,并设计了一种由卷积层和Mamba构成的混淆BEV编码器。对Occ3D nuScenes数据集的广泛实验表明,MambaOcc在正确性和盘算服从方面都达到了开始进的性能。例如,与FlashOcc相比,MambaOcc提供了更优的效果,同时将参数数量减少了42%,盘算成本减少了39%。 MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation
论文链接:https://arxiv.org/abs/2408.10602v1
开源链接:https://github.com/Chengjt1999/MV-MOS
南方科技大学&华南师范团队的工作:有用地总结密集的3D点云数据并提取活动目的的活动信息(活动目的分割,MOS)对于自动驾驶和呆板人应用至关重要。如何有用地利用活动和语义特征,避免3D-2D投影过程中的信息丢失,仍然是一个关键挑战。本文通过融合点云差别二维表现的活动语义特征,提出了一种新的多视图MOS模子(MV-MOS)。为了有用地利用互补信息,所提出模子的活动分支联合了鸟瞰图(BEV)和隔断图(RV)表现的活动特征。此外引入了一个语义分支,以提供活动对象的补充语义特征。末了,利用Mamba模块将语义特征与活动特征融合,为活动分支提供有用指导。我们通过综合实验验证了所提出的多分支融合MOS框架的有用性,我们提出的模子在SemanticKITTI基准上优于现有的开始进模子。 MambaEVT: Event Stream based Visual Object Tracking using State Space Model
论文链接:https://arxiv.org/abs/2408.10487
开源链接:https://github.com/Event-AHU/MambaEVT
近年来,基于事件相机的视觉跟踪因其独特的成像原理和低能耗、高动态范围和高时间分辨率的长处而受到越来越多的关注。由于利用视觉Transformer和静态模板进行目的定位,当前基于事件的跟踪算法正逐渐遇到性能瓶颈。本文提出了一种新的基于Mamba的视觉跟踪框架,该框架接纳线性复杂度的状态空间模子作为骨干网络。搜刮地区和目的模板被馈送到视觉Mamba网络中,以同时进行特征提取和交互。搜刮地区的输出标志将被输入跟踪头进行目的定位。更重要的是,我们考虑利用Memory Mamba网络在跟踪框架中引入动态模板更新策略。通过考虑目的模板库中样本的多样性并对模板存储模块进行适当调整,可以集成更有用的动态模板。动态和静态模板的有用组合使我们基于Mamba的跟踪算法可以或许在多个大规模数据集(包罗EventVOT、VisEvent和FE240hz)上实现精度和盘算成本之间的良好平衡。 OccMamba: Semantic Occupancy Prediction with State Space Models
论文链接:https://arxiv.org/abs/2408.09859
中科大&上海AI Lab等团队的工作:由于存在大量占用单元、严峻遮挡、有限的视觉线索、复杂的驾驶场景等因素,训练用于语义占用预测的深度学习模子具有挑战性。近来的方法通常接纳基于Transformer的架构,因为它们在学习输入条件权重和远程关系方面具有很强的本领。然而基于Transformer的网络因其二次盘算复杂性而让人望而却步,严峻削弱了它们在语义占用预测中的有用性和部署。受Mamba架构的全局建模和线性盘算复杂性的启发,我们提出了第一个基于Mamba的语义占用预测网络,称为OccMamba。然而,由于语言域和3D域之间固有的域差距,将Mamba架构直接应用于占用预测使命会产生不令人满足的性能。为了缓解这个问题,我们提出了一种简单而有用的3D-1D重排序操作,即高度优先的2D Hilbert睁开。它可以最大限度地保存点云的空间结构,并促进曼巴块的处置惩罚。我们的OccMamba在三个流行的占用率预测基准上达到了开始进的性能,包罗Openccupancy、SemanticKITTI和SemanticPOSS。值得留意的是,在Openccupancy上,我们的OccMamba分别比之前开始进的Co-Occ高出3.1%的IoU和3.2%的mIoU。 MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model
论文链接:https://arxiv.org/abs/2408.09178
国防科大的工作:通过检测进行跟踪一直是多目的跟踪(MOT)领域的主流范式。这些方法通常依赖于卡尔曼滤波器来估计目的的将来位置,假设目的是线性活动的。然而,在跟踪舞蹈和体育等场景中体现出非线性和多样化活动的目的时,它们却做得不够。此外,在MOT中利用基于学习的活动预测器的关注有限。为了应对这些挑战,我们告急于探索数据驱动的活动预测方法。受状态空间模子(SSM)(如Mamba)在具有近线性复杂度的恒久序列建模中的巨大期望的启发,我们引入了一种名为Mamba-motion Predictor(MTP)的基于Mamba的活动模子。MTP旨在模拟舞者和活动员等目的的复杂活动模式。具体来说,MTP将对象的时空位置动态作为输入,利用双Mamba编码层捕获活动模式,并预测下一个活动。在现实天下中,对象大概会因遮挡或活动模糊而丢失,导致其轨迹过早终止。为了应对这一挑战,我们进一步扩大了MTP的应用范围。我们以自回归的方式利用它,通过利用它本身的预测作为输入来赔偿缺失的观测值,从而有助于更一致的轨迹。我们提出的跟踪器MambaTrack在Dancetrack和SportsMOT等基准测试中体现出了先进的性能,这些基准测试的特点是复杂的活动和严峻的遮挡。 RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba
论文链接:https://arxiv.org/abs/2408.08827v1
安徽大学的工作:现有的RGBT跟踪方法通常设计各种交互模子来实行每一层的跨模态融合,但由于盘算量大,无法实行所有层之间的特征交互,这在鲁棒的多模态表现中起着至关重要的作用。为相识决这个问题,本文提出了一种名为AINet的新型全层多模态交互网络,该网络在渐进融合Mamba中对所有模态和层进行高效和有用的特征交互,以实现鲁棒的RGBT跟踪。尽管已知差别层中的模态特征包含差别的线索,但由于在平衡交互本领和服从方面存在困难,在每一层中构建多模态交互总是具有挑战性的。同时,考虑到RGB和热模态之间的特征差别在一定程度上反映了它们的互补信息,我们设计了一种基于差别的融合曼巴(DFM),以实现具有线性复杂度的差别模态的增强融合。当与所有层的特征交互时,涉及大量的令牌序列(本研究中为3840个令牌),因此盘算负担很大。为相识决这个问题,我们设计了一个Order动态融合Mamba(OFM),通过动态调整Mamba中差别层的扫描序次来实行所有层的高效和有用的特征交互。对四个公共RGBT跟踪数据集的广泛实验表明,AINet在现有开始进的方法中取得了领先的性能。 DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba
论文链接:https://arxiv.org/abs/2408.03601v2
项目主页:https://chengran-yuan.github.io/DRAMA/
新加坡国立大学的工作:活动规划是一项具有挑战性的使命,在高度动态和复杂的情况中生成安全可行的轨迹,形成自动驾驶汽车的焦点本领。在本文中提出了DRAMA,这是第一个基于Mamba的自动驾驶汽车端到端活动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自车状态信息,以生成一系列将来的自车轨迹。与传统的基于Transformer的序列长度二次留意力复杂度方法差别,DRAMA可以或许实现盘算强度较低的留意力复杂度,表现出处置惩罚日益复杂的场景的潜力。DRAMA利用本文提出的Mamba融合模块,高效地融合了相机和激光雷达的功能。此外,我们引入了一个Mamba Transformer解码器,可以提高团体规划性能。该模块普遍实用于任何基于Transformer的模子,特别是对于具有长序列输入的使命。我们进一步引入了一种新的特征状态扬弃,在不增加训练和推理时间的情况下提高了规划器的鲁棒性。广泛的实验效果表明,与基线Transfuser相比,DRAMA在NAVSIM数据集上实现了更高的精度,参数更少,盘算成本更低。 MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
论文链接:https://arxiv.org/abs/2408.07889
大连理工的工作:现有的RGB-T跟踪算法通过利用Transformer架构的全局交互本领和广泛的预训练模子取得了显著进展。尽管云云,这些方法重要接纳图像对外观匹配,并面临着留意力机制固有的高二次复杂度的挑战,导致时间信息的利用受到限制。受近来出现的状态空间模子Mamba的启发,该模子以其令人印象深刻的长序列建模本领和线性盘算复杂性而闻名,这项工作创新性地提出了一个基于纯Mamba的框架(MambaVT),以充实利用时空上下文建模进行鲁棒的可见热跟踪。具体而言,我们设计了long-range跨帧集成组件,以全局适应目的外观变化,并引入短期汗青轨迹提示,根据局部时间位置线索预测后续目的状态。广泛的实验表明,视觉Mamba在RGB-T跟踪方面具有巨大的潜力,MambaVT在四个主流基准上实现了开始进的性能,同时必要更低的盘算成本。我们的目的是将这项工作作为一个简单而强盛的基线,刺激该领域的将来研究。 MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection
论文链接:https://arxiv.org/abs/2408.00438v1
重庆理工的工作:基于变换器的单目3D对象检测技术的最新进展在从单个2D图像推断3D属性方面体现出了卓越的性能。然而,大多数现有方法依赖于资源密集型的转换器架构,这通常会导致处置惩罚长序列数据时盘算服从和性能的显著下降。为了应对这些挑战并推进单目3D目的检测技术,我们提出了一种创新的网络架构MonoMM,一种多尺度Mamba-Enhanced用于实时单目3D目的检测的网络。这种设计良好的架构重要包罗以下两个焦点模块:聚焦多尺度融合(FMF)模块,该模块侧重于以较低的盘算资源斲丧有用地保存和融合来自差别尺度的图像信息。通过正确调节信息流,FMF模块增强了模子对尺度变化的适应性和鲁棒性,同时保持了图像细节。深度感知特征增强Mamba(DMB)模块:它利用图像特征的融合特征作为输入,并接纳一种新颖的自适应策略来全局整合深度信息和视觉信息。这种深度融合策略不仅提高了深度估计的正确性,而且提高了模子在差别视角和情况条件下的性能。此外,MonoMM的模块化设计提供了高度的机动性和可扩展性,便于根据特定的应用需求进行调整和优化。在KITTI数据集上进行的大量实验表明,我们的方法优于以前的单目方法,实现了实时检测。 LION: Linear Group RNN for 3D Object Detection in Point Clouds
论文链接:https://arxiv.org/abs/2407.18232v1
代码链接:https://happinesslz.github.io/projects/LION/
华科&港大&百度的工作:在大规模3D点云感知使命(如3D对象检测)中,变换器的上风受到建模远程关系时二次盘算成本的限制。相比之下,线性RNN具有较低的盘算复杂度,实用于长隔断建模。为了实现这一目的,我们提出了一种基于LInear grOup RNN(即对分组特征实行线性RNN)的简单有用的基于窗口的框架,用于正确的3D对象检测,称为LION。关键属性是允许在比基于变换器的方法大得多的组中进行足够的特征交互。然而,由于线性群RNN在处置惩罚空间建模方面的局限性,将其有用应用于高度希罕点云中的3D对象检测并非易事。为相识决这个问题,我们简单地引入了一个3D空间特征形貌符,并将其集成到线性组RNN算子中,以增强它们的空间特征,而不是盲目地增加体素特征的扫描序次。为了进一步解决高度希罕点云中的挑战,我们提出了一种3D体素生成策略,利用线性群RNN作为自回归模子的自然属性来加密前景特征。大量实验验证了所提出的组件的有用性以及我们的LION在差别线性群RNN算子(包罗Mamba、RWKV和RetNet)上的泛化本领。此外,值得一提的是,我们的LION Mamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上达到了开始进的水平。末了但同样重要的是,我们的方法在小型但流行的KITTI数据集上支持各种高级线性RNN算子(例如RetNet、RWKV、Mamba、xLSTM和TTT),以便快速体验我们基于线性RNN的框架。 Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model
论文链接:https://arxiv.org/abs/2407.12319v1
湖南大学的工作:点云分割对于呆板人视觉感知和情况理解至关重要,可以实现呆板人导航和3D重建等应用。然而,处置惩罚点云数据的希罕和无序特性给高效和正确的分割带来了挑战。受Mamba模子在自然语言处置惩罚中的乐成启发,我们提出了序列化点云Mamba分段模子(序列化点Mamba),该模子利用状态空间模子动态压缩序列,减少内存利用,提高盘算服从。Serialized Point Mamba将局部全局建模功能与线性复杂性相联合,在室内和室外数据集上实现了开始进的性能。这种方法包罗分阶段点云序列学习、网格池和条件位置编码等新技术,促进了差别点云使命的有用分割。我们的方法在Scannet上实现了76.8 mIoU,在S3DIS上实现了70.3 mIoU。在Scannetv2实例分段中,它记录了40.0 mAP。它还具有最低的延迟和合理的内存利用,使其成为基于曼巴的点语义分割模子中的SOTA。 Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection
论文链接:https://arxiv.org/abs/2406.10700v2
港理工&中科院等团队的工作:基于序列化的方法对3D体素进行序列化,并在输入到Transformers之前将其分组为多个序列,已证实其在3D对象检测中的有用性。然而,将3D体素序列化为1D序列将不可避免地断送体素的空间靠近度。由于具有特征巨细的Transformer的二次复杂性,通过现有的基于序列化的方法扩大组巨细很难解决这个问题。受状态空间模子(SSM)最新进展的启发,我们提出了一种体素SSM,称为体素曼巴,它接纳无组策略将整个体素空间序列化为单个序列。SSM的线性复杂性鼓励了我们的无组设计,减轻了体素空间靠近度的丧失。为了进一步增强空间相近性,我们提出了一种双尺度SSM块来建立条理结构,在1D序列化曲线中实现更大的感受野,并在3D空间中实现更完整的局部地区。此外,我们通过位置编码在无组框架下隐式地应用窗口分割,这通过编码体素位置信息进一步增强了空间靠近度。我们在Waymo Open Dataset和nuScenes数据集上的实验表明,Voxel Mamba不仅比开始进的方法具有更高的精度,而且在盘算服从方面也表现出显著的上风。 Mamba YOLO: SSMs-Based YOLO For Object Detection