港科大&华为诺亚发布Occ-LLM：大模子赋能自动驾驶，空间感知本领飞跃 ...

写过一篇 · 11 小时前

导读
港科大和华为诺亚最新在占用预测（Occupancy）的研究工作-OccLLM, 使用LLM（大型语言模子）结合占用预测网络，全面提升了空间感知本领。实验表明，它各方面超越OccWorld。
©️【深蓝AI】编译
本文由paper一作——Tianshuo Xu 授权【深蓝AI】编译发布！
论文标题：Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models
论文作者：Tianshuo Xu, Hao Lu, Xu Yan, Yingjie Cai, Bingbing Liu, Yingcong Chen
论文地址：http://arxiv.org/abs/2502.06419

01 背景简介

大型语言模子（LLMs）发展敏捷，并逐步推动AI跨行业发展的核心技术。只管LLMs最初专为NLP筹划，但其强大的泛化本领使其在自动驾驶等复杂范畴显现出卓越的顺应性，尤其在自动驾驶范畴。现有自动驾驶范畴的LLM应用主要依赖图像输入，此类方法在环境明白中缺乏须要的空间感知本领。基于视觉与激光雷达的现有方案虽能提升车辆导航与环境解析本领，但存在盘算复杂度高、中间推理过程不透明等局限。
占位表征（Occupancy）是自动驾驶中一种高表现力的模态，其通过全面形貌场景远景与背景，提供丰富的空间与语义信息。这种通用表征无需依赖物体具体种别，即可实现已知或未知对象的感知。值得注意的是，以特斯拉为代表的头部车企正逐步接纳基于占位的系统，标志着环境解析范式正转向这一鲁棒性更强的技术路径。
本文旨在使用LLMs的深度分析与泛化本领解析占位栅格，构建面向自动驾驶下游使命的通用基础模子。然而，直接将占位表征融入LLMs面临两大挑衅：

占位种别分布失衡
以及大量体素（voxels）表征氛围导致的低效学习与内存瓶颈

为此，本文提出创新性方法——运动分离变分自编码器（Motion Separation Variational Autoencoder, MS-VAE）。该方法在占位场景中分离动态实体（如车辆、行人）与静态布局（如道路、绿化）对应的体素，通过雷同残差学习的机制，强化模子对动态轨迹的聚焦本领并优化静态场景重建。这种分离策略显著降低了学习难度，提升了整体模子性能。

▲图1｜ Occ-LLM 概览©️【深蓝AI】编译

作者提出的占位大语言模子（Occ-LLM）颠末系统化筹划，可支持自动驾驶范畴的多场景应用。如图1所示，其核心功能包括4D占位场景预测、自车规划及基于占位的场景问答（QA），这些功能对提升自动驾驶系统的安全性、效率与可靠性至关重要。
本文主要贡献如下：

提出首个面向自动驾驶的占位大语言模子（Occ-LLM），其场景明白本领显著优于现有方案；
筹划运动分离变分自编码器（MS-VAE），通过解耦动态/静态体素高效处理海量占位数据，全面提升系统性能指标；
验证Occ-LLM的多使命泛化本领，包括4D场景预测、自车规划与场景问答，证明其在自动驾驶多维使命中的良好性；
通过复用现有占位预测方法，展示Occ-LLM的工程实用性，为其实际部署提供技术支持。

02 相关研究

2.1. 多模态大语言模子

多模态大语言模子（MLLMs）通过将大语言模子（LLMs）的高级推理本领与图像、视频和音频数据相结合。这些模子在零样本和少样本图像分类、分割和目的检测等使命中表现出色，主要得益于视觉与文本数据之间的协同作用。在自动驾驶范畴，LLMs通过加强场景明白、提供更丰富的语义上下文以及优化决策过程，弥补了当前系统的关键缺陷。目前已有多种方法提出使用LLMs提升自动驾驶本领。基于视觉的方法，如DriveGPT4，通过解析视频输入生成与驾驶相关的文本相应，而HiLM-D等模子则通过高分辨率视觉数据提升危险识别和意图预测本领。基于激光雷达的方法则使用矢量化的视觉嵌入，赋予LLMs环境感知本领，从而实现对驾驶场景的详细分析。
2.2. 占用网络

3D语义占据网格技术通过显式建模3D网格中每个体素的占据状态，提供了更精致的环境表现。SSCNet首次引入了语义场景补全使命，将几何与语义信息相结合。后续研究通常使用包含显式深度信息的几何输入。MonoScene提出了首个单目语义场景补全方法，使用3D UNet处理通过视线投影生成的体素特性。基于迁移架构的各种网络也被筹划出来。别的，多项并行研究致力于为3D语义占据预测提出环视基准，推动了占据社区的快速发展。OccWorld基于3D占据学习了一个天下模子，因其可解释性和高效性而备受关注。
03 方法精析

如图2所示，Occ-LLM框架将大语言模子（LLMs）与占据表现相结合，以提升自动驾驶系统的性能。该框架加强了空间与语义明白本领，辅助场景解析与决策订定。

▲图2｜ Occ-LLM 架构概览©️【深蓝AI】编译

3.1. 运动分离变分自编码器（MS-VAE）

基于已有的多模态LLM集成方法，作者的目的是训练一个变分自编码器（VAE）以促进模态融归并降低盘算成本。直接将占据表现集成到LLMs中面临诸多挑衅，例如占据种别分布不平衡以及氛围体素占主导地位，导致数据表现希罕且低效。为办理这一问题，本文提出了运动分离变分自编码器（MS-VAE），该模子在占据网格中分离动态与静态成分，从而进步编码效率，并将重点转向对自动驾驶至关重要的动态元素。因此，MS-VAE实现了更平衡且有效的LLM框架集成。
MS-VAE的核心思想是训练两个独立的VQVAE，分别对动态与静态占据体素举行编码和解码。然而，在保持单一编码器与解码器的同时，使用两个差别的码天职别处理动态与静态体素，也能取得不错的效果。
设

表现输入的占据表现，其中

和

分别表现动态与静态体素。编码器

将输入

映射到潜伏空间

。对于MS-VAE，我们为动态与静态体素分别界说两个独立的潜伏变量

和

：

每个编码后的潜伏变量

和

在对应的码本

和

中搜刮，并在输入解码器之前被最相似的码本条目更换。这一过程表现为：

解码器

从量化后的潜伏变量

和

中重建输入：

为促进占据表现中运动与静态元素的分离，基于体素分类应用变换。设

表现可移动种别的集合。我们在修改后的占据表现中界说运动与氛围填充的指示函数如下：界说指示函数

，使得：

修改后的动态占据

与静态占据

由下式给出：

其中

表现静态占据网格中的氛围表现，通常编码为代表未占据空间的占位符值。
为重建原始占据表现，我们使用掩码

区分活泼运动区域。重建后的占据

将静态与动态成分结合如下：

MS-VAE的整体损失函数结合了重建损失与答应损失，以确保编码后的潜伏变量靠近码本条目：

通过为动态与静态体素使用独立的码本，同时保持同一的编码器与解码器，并适当处理占据表现，MS-VAE有效捕获了各类体素的独特特性，从而提升了占据重建与泛化本领。
别的，整体VAE架构参考了OccWorld实现中的方法，特殊是将占据视为具有16通道的2D数据，并接纳2D VAE举行编码与解码。然而，为保留三维信息的完整性，在编码器之前与解码器之后集成了一层轻量级3D卷积。这一修改恭敬了占据表现固有的空间维度，并显著提升了重建占据的质量。与传统的2D VAE使用方式相比，该方法显著进步了占据表现在三维空间中的保真度。
3.2. 基于LLM的占用网络的预处理

分块化处理。在使用MS-VAE对原始占据表现举行编码后，生成的潜伏表现仍然较为庞大。为办理这一问题，本文接纳了一种雷同于视觉Transformer（ViT）的方法，将占据潜伏空间划分为小网格并展平。观察表明，分块大小对占据重建的质量有显著影响。这是因为预测未来占据帧涉及感知和低级视觉使命。例如，感知使命通常受益于较大的分块大小，有助于更好地明白输入数据的语义信息。而低级视觉使命则通常接纳较小的分块大小以实现更高质量的数据重建。通过消融实验，分块大小为10时效果最佳。
帧分离。每帧展平后的占据潜伏表现较长，直接拼接多帧的展平占据潜伏表现会导致生成占据的位置漂移。这种漂移表现为前一帧的部分占据出如今后续帧中，导致级联错位（如图3所示）。

为办理这一问题，作者提出了一种简朴但有效的办理方案：在每帧占据潜伏表现的开头和结尾添加特定的文本标志。具体来说，在开头使用“”，在结尾使用“”。这些标志在推理过程中明确界定了帧之间的间隔，有效消除了漂移问题。
预融合。通过引入了一种预融合方法，以更好地创建占据表现与自车动作之间的联系。该方法首先通过多个MLP层对自车动作举行编码。雷同于SE-Net的方法，随后将编码后的动作潜伏表现作为权重来调制占据表现。这种技术加强了占据表现与自车动作之间的一致性，从而提升了整体模子性能。
3.3. 下游使命

Occ-LLM框架支持多种对提升自动驾驶系统至关重要的下游使命，包括4D占据预测、自车规划以及基于占据的场景问答。使命切换通过特定提示词举行管理：“<4-D occupancy forecasting and self-ego planning>”启动4D占据预测与自车规划的联合使命，而“”则触发问答使命。这些使命共同加强了情境感知与决策本领。4D占据预测用于预测环境动态，这对预判危险至关重要。自车规划则使用这些预测结果实现安全高效的导航。基于占据的场景问答用于解析复杂情境，辅助做出明智决策。这些功能共同显著提升了自动驾驶系统的安全性、可靠性和效率。
04 实验结果

本文以Llama2为基础模子，并使用交并比（IoU）和平均交并比（mIoU）指标评估4D占据预测。自车规划本领则通过L2距离指标举行评估。
作者接纳Nuscenes数据集，该数据集包含1000个场景。这些场景被划分为700个用于训练，150个用于验证，150个用于测试。每个场景包含约50帧，对应一个占据场景。占据表现的维度为(200,200,16)，其中前两个维度(200,200)表现长度和宽度，16表现高度。该数据集配置使可以或许全面评估和验证模子在各种场景下的性能。
4.1. 与SORT方法实验对比结果

4D占据预测与自车规划：表1将Occ-LLM与当前开始辈的4D占据预测和运动规划方法举行了比较，提供了1秒、2秒和3秒时间间隔的交并比（IoU）、平均交并比（mIoU）以及L2距离等指标。如图4所示，该方法在准确性和一致性上均优于现有技术。

评估的方法包括基于激光雷达的方法，如IL、NMP和FF，以及基于摄像头的方法，如UniAD、VAD-Base和OccNet。作者还将预测的占据数据集成到Occ-LLM框架中，通过BevFormer+Ours等模子实现了更高的性能，平均IoU达到23.79%，mIoU为10.21%，L2距离为0.43米。
与基于占据的方法相比，Occ-LLM超越了OccWorld，平均IoU达到32.52%，mIoU为20.99%，L2距离为0.28米，显现了更高的准确性和可靠性，适用于自动驾驶。
问答使命：Occ-LLM展示了专为自动驾驶场景筹划的高级问答本领。如图5所示，该系统可以或许有效解析多视角摄像头输入，预测占据环境，并准确回答有关驾驶环境的查询。它可以或许识别场景中的关键物体，为自车保举安全操作，并形貌潜伏危险，例如预备过马路的行人。

4.2. 消融实验

为定量评估系统性能，Occ-LLM与DriveLM模子举行了对比评估，使用了BLEU、ROUGE L、CIDEr和GPT Score等标准指标，结果如表2所示。这些评估指标的详细信息见。Occ-LLM在所有指标上均优于DriveLM，取得了更高的分数。这些结果验证了Occ-LLM在自动驾驶环境中提供准确且上下文相关答案的有效性。

OccWorld的VAE与提出的MS-VAE的对比分析：表3比较了OccWorld的VAE 与本文的MS-VAE，展示了重建性能的显著提升。通过增加3D卷积层和运动分离策略，IoU和mIoU均有所进步，MS-VAE的IoU达到62.74%，mIoU为71.08%，而OccWorld的VAE分别为59.07%和60.50%。

差别分块大小在分块化处理中的对比分析：表4研究了差别分块大小对重建性能的影响。分块大小为10时表现最佳，在训练集上的IoU为32.48%，mIoU为26.16%，在验证集上分别为27.12%和26.83%，在细节捕获与效率之间取得了平衡。

Occ-LLM模块的消融研究：表5展示了Occ-LLM模块的消融研究。基线模子的IoU为20.67%，mIoU为16.63%，L2距离为0.82米。添加预融合模块后，这些指标有所提升，而结合运动分离（MS）模块后，IoU进一步提升至32.52%，mIoU达到20.99%，L2距离降至0.28米，凸显了MS模块的优势。
05 总结

本文提出了基于占据的大语言模子（Occ-LLM），通过将LLM与占据表现相结合，提升了自动驾驶性能。全文提出的运动分离变分自编码器（MS-VAE），通太过离动态物体与静态场景，办理了种别不平衡问题。Occ-LLM在4D占据预测、自车规划以及场景问答使命中均超越了现有开始辈方法，取得了更高的交并比（IoU）和平均交并比（mIoU）分数，并减少了规划误差。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

港科大&华为诺亚发布Occ-LLM：大模子赋能自动驾驶，空间感知本领飞跃 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云