【论文精读】VLM-AD:通过视觉-语言模子监督实现端到端自动驾驶 ...

打印 上一主题 下一主题

主题 932|帖子 932|积分 2800


论文地点: VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision
择要

        人类驾驶员依赖常识推理来应对复杂多变的真实天下驾驶场景。现有的端到端(E2E)自动驾驶(AD)模子通常被优化以模仿数据中观察到的驾驶模式,但未能捕捉到背后的推理过程。这种限制使得它们在处理具有寻衅性的驾驶场景时本领受限。为了弥合这一差距,我们提出了VLM-AD,一种利用视觉语言模子(VLMs)作为教师来增强训练的方法,通过提供额外的监督信号,将非结构化的推理信息和结构化的动作标签融入训练中。这种监督能够增强模子学习更丰富的特征表示的本领,从而捕捉驾驶模式背后的逻辑。重要的是,我们的方法在推理时不必要VLM,使其适合实时部署。当与现有最先进的方法结适时,VLM-AD在nuScenes数据集上显著进步了规划精度,并降低了碰撞率。
      
       图1. VLM-AD通过在训练期间利用辅助文本猜测任务增强任意端到端驾驶模子。这些任务从视觉语言模子(VLM)中提炼驾驶推理知识,以鼓励模子学习更丰富的特征表示,而无需在训练时对VLM举行微调或在推理时利用VLM。       1. 引言

        端到端自动驾驶(AD)将感知、猜测和规划统一到一个框架中,旨在和谐包括检测、跟踪、建图、猜测和规划在内的多个复杂任务。近期的研究方法通过利用传感器数据生成规划的自我轨迹,接纳单一的整体模子来办理这些寻衅。只管这些方法已经表现出一些有希望的结果,但它们在处理具有寻衅性的长尾变乱时性能会降落。另一方面,人类驾驶员通常能够通过推理驾驶情况并相应地调整活动来有效处理这些场景。这突显了当前端到端模子在训练中的一个缺口,它们仅依赖于轨迹监督作为一系列点,缺乏用于学习丰富且鲁棒特征表示的推理信息,以实现更好的驾驶性能。手动标注推理信息通常成本高昂、耗时且轻易出现不一致和主观的结果,这使得获取高质量和可扩展的标注变得困难。大型基础模子通过提供复杂任务(如驾驶)的推理本领提供了一种替代方案。近期的一些方法直接将大型基础模子(如大型语言模子[LLMs]和视觉语言模子[VLMs])集成到AD系统中,以利用它们的推理本领。然而,这些方法必要大量的特定领域微调,以将基于语言的输出转化为精确的数值结果,如规划轨迹或控制信号。别的,这些方法在推理时依赖于大型基础模子,这显著增长了训练成本和推理时间,使得这些方法不适合现实应用。
鉴于手动标注的局限性和直接将大型基础模子集成到驾驶系统中的寻衅,我们提出了以下问题:大型基础模子(如VLMs)是否可以生成基于推理的文本信息,以增强自动驾驶模子,而无需在推理时举行集成?受此问题的启发,我们提出了VLM-AD(如图1所示),一种利用VLMs作为教师自动生成基于推理的文本标注的新方法。这些标注随后作为增补监督信号用于训练端到端流程,超越了标准轨迹标签的范围。具体来说,给定一个多视角图像序列和自车的将来轨迹,我们将将来轨迹投影到初始前视图像上,以纳入关键的时间活动信息。然后,我们通过针对车辆当前状态、预期将来活动和推理过程的针对性问题提示VLM模子,生成自由形式和结构化的相应,从而将关键的VLM知识注入训练流程。这种可扩展的方法使我们能够构建一个富含VLM生成标注的数据集,有效办理了现有驾驶数据集中缺乏推理线索的问题。我们基于这些标注计划了辅助任务,并无缝地将其整合到现有的端到端模子中举行联合训练。这些任务鼓励模子学习更丰富的特征表示,以提升驾驶性能,而无需在推理时利用VLM。我们的贡献可以总结如下:


  • 我们提出了VLM-AD,这是一种简单而有效的方法,通过经心计划的提示将VLM的驾驶推理知识提炼到端到端AD流程中,生成基于推理的活动文本标注的高质量数据集。
  • 我们计划了两个即插即用的辅助任务,通过非结构化的自由形式文本和结构化的动作标签监督现有的端到端AD流程。这些任务无需对VLM举行微调或在推理时利用,即可有效地提炼VLM知识,引导模子学习更丰富的特征表示以提升规划性能。
  • 在nuScenes数据集上的广泛实验验证了我们提出方法的有效性,表现出在L2规划误差上分别提升了14.6%和33.3%,并将UniAD和VAD的碰撞率分别降低了38.7%和57.4%。
2. 相关工作

End-to-End Autonomous Driving. 端到端自动驾驶系统将所有模块联合训练以实现统一目的,从而减少整个流程中的信息丢失。比方,ST-P3 [17] 和 UniAD [18] 提出了基于视觉的端到端自动驾驶系统,将感知、猜测和规划统一起来。这些模子在开放环路的nuScenes数据集 [3] 上取得了最先进的结果。后续的研究,如VAD [26] 和VADv2 [6],引入了矢量化编码方法以实现高效的场景表示,并扩展到CARLA [14] 上的闭环仿真。近期的方法,如Ego-MLP [62]、BEV-Planner [35] 和PARA-Drive [58],进一步探索了自我状态和模块化堆栈中的新计划空间,以提升驾驶性能。只管端到端驾驶方法在开发中表现出潜力,但它们主要被优化以模仿数据中的驾驶模式,而未能捕捉到背后的推理过程。这种局限性主要是由于现有数据集中缺乏推理信息。因此,这些方法无法获取更深条理的推理知识,这可能会限制它们在复杂场景中的性能。
Foundation Models for Autonomous Driving. 基础模子,包括大型语言模子(LLMs)和视觉语言模子(VLMs),正越来越多地被应用于自动驾驶领域,以利用它们的高级推理本领。GPT-Driver [39] 和Driving-with-LLMs [4] 利用LLMs提供带有解释的动作建议,从而增强决议的透明性。近期的一种方法 [11] 利用LLMs评估车道占用和安全性,实现更具人类直觉的场景理解。然而,基于LLM的方法主要依赖于语言输入,这限制了它们整合驾驶中丰富的视觉特征的潜力。
        VLMs通过整合语言和视觉实现多模态推理,支持诸如场景理解 [10, 21, 42, 49] 和数据生成 [24, 56, 64] 等任务。VLMs还被用于统一导航和规划 [15, 29, 51, 53] 以及端到端自动驾驶 [27, 40, 55, 61]。然而,现有的基于VLM的方法通常必要大量的特定领域微调,这显著增长了计算成本和推理延迟。与我们的方法密切相关的是,VLP [40] 将轨迹和边界框标签转换为用于对比学习的文本特征,但它没有引入超出现有监督标签的信息。相比之下,我们的方法利用VLM提供额外的推理信息,以进一步提升驾驶性能。
Multi-Task Learning. 多任务学习(MTL)通过共享表示联合实行多个相关任务,通过单独的分支或头部实现。这种方法利用共享的领域知识,增强特征的鲁棒性和泛化本领,使其非常适合端到端自动驾驶。在AD系统中,辅助任务如语义分割 [9, 19, 23, 33, 60]、深度估计 [33, 60]、高精地图和鸟瞰图分割 [8, 25, 47, 48, 63] 常被接纳,以提取有意义的感知表示用于后续目的。除了视觉任务外,其他方法 [22, 59] 还猜测额外的交通灯状态或控制信号,以提升驾驶性能。受多任务学习成功的启发,我们计划了新的辅助任务,通过从VLM获取高质量的推理标注,鼓励模子学习更丰富的特征表示,从而实现更可靠的规划性能。
      
       图2. 我们提出的VLM-AD框架。我们利用VLM作为教师,生成自由形式的推理和结构化的动作标注,这些标注被转化为监督信号,通过辅助文本对齐头和动作分类头,使模子能够学习更丰富的特征表示。因此,我们的方法在推理时无需VLM,即可提供更好的规划结果和可解释的动作猜测。       3. 方法

        图2展示了我们提出的VLM-AD框架的概述,它由两个主要部门组成。第一部门是解释分支,我们利用VLM生成额外的信息,创建一个增补数据集作为监督信号。第二部门是我们计划的辅助头,旨在与这种额外的监督信号对齐,而且可以有效地集成到任何端到端模子中,跟随规划模块之后。
      
       图3. GPT-4o生成的示例标注。 给定自车前视摄像头的一连帧,我们将车辆的将来轨迹投影到第一帧上。通过利用我们计划的提示,我们得到了关于自车当前状态、预期动作和推理的三个自由形式的文本相应,以及三个结构化的动作相应。       3.1 VLM文本解释

        图3展示相识释过程,我们利用VLM作为教师,通过视觉输入丰富数据集中的额外信息,利用其从视觉输入中推理驾驶活动的本领,加深端到端模子对驾驶活动的理解。解释过程可以界说为:

此中,M(·) 表示VLM模子,P 表示语言提示,V 是视觉输入,而A 是模子的自然语言输出,作为数据集的解释。我们的目的是提供来自自车摄像头的图像,以及经心计划的提示,以从VLM得到详细且信息丰富的相应,利用其广泛的天下知识。
        在我们的工作中,我们利用了GPT-4o [2],这是一个在互联网规模数据上训练的高性能VLM,用于自动标注我们的数据集。GPT-4o能够解释场景,生成符合的基于推理的相应,并在复杂场景中准确辨认自车的动作。
Visual Input. 在确定视觉输入时,我们面临两个寻衅。第一个寻衅是从多个摄像头中选择符合的图像,这些摄像头提供了围绕自车的360度覆盖。我们探索了两种方法:从所有视图创建一个复合大图像,或者仅利用前视图像,后者通常包含大多数驾驶任务所需的相关信息。我们的解释结果表现,这两种方法的输出质量相称,因此我们选择仅利用前视图像以降低整体复杂性。
        第二个寻衅是整适时间信息,这对于有效的规划和决议至关重要。我们思量了两种方法。一种直接的方法是输入多个一连帧作为序列,并在提示中指示将来的时间戳。然而,我们观察到VLM在时间一连性方面存在困难,常常混淆自车的身份,这可能是由于其在时间定位方面的限制 [28, 43]。因此,我们选择将自车的将来轨迹投影到单个前视图像上,利用相机的内参和外参以及传感器规格。我们在提示中指定,投影的轨迹反映了车辆的将来路径。这种成本效益高的计划答应VLM比利用图像序列更可靠地解释时间信息。
Freeform Reasoning Annotation. 作为VLM的关键输入,经心计划的问题对于增强推理本领和进步VLM相应的可解释性至关重要 [57]。在我们的方法中,我们专注于规划任务,通过计划提示来得到VLM的推理。我们创建了两种类型的问题,首先是开放式问题,旨在生成自由形式的、非结构化的相应,这些相应包含丰富且高维的语言信息。我们将这些相应称为非结构化推理解释。为了最大化VLM的推理本领,我们在提出具体问题之条件供详细的上下文形貌作为开端指令。具体来说,上下文和问题界说如下:


  • :这是自车的前视图像。红线表示将来轨迹,没有线表示制止或减速。在解释推理时,请专注于相机图像及其四周上下文,而不是引用绘制的轨迹。
  • :请形貌自车的当前活动。
  • :请猜测自车的将来活动。
  • :请解释当前和将来活动的推理。

        完备的输入提示界说为
= [
,
]
,此中
表示问题集,
= {
,
,
}
。这些开放式问题生成自由形式的文本解释,形貌自车的当前状态、预期的将来活动以及VLM知识背后的推理。
Structured Action Annotation. 为了测试我们方法的灵活性,我们界说了第二种类型的问题,接纳结构化格式。具体来说,我们创建了三个不同的动作集,并提示VLM从这些预界说选项中选择答案。这使我们能够为每个问题得到一个特定的动作解释。具体来说,上下文和问题界说如下:


  • :这是自车的前视图像。红线表示将来轨迹,没有线表示制止或减速。
  • :请从控制动作列表中形貌自车的动作:{直行、慢行、制止、倒车}。
  • :请从转弯动作列表中形貌自车的动作:{左转、右转、掉头、无}。
  • :请从车道动作列表中形貌自车的动作:{向左变道、向右变道、并入左车道、并入右车道、无}。
    完备的输入提示界说为
    = [
    ,
    ]
    ,此中
    表示结构化动作问题集,
    = {
    ,
    ,
    }
    。通过这种方式,我们可以从VLM得到三个特定的动作。与自由形式文本解释相比,结构化解释的一个主要优势是它们可以用来监督端到端驾驶模子以猜测人类可解释的动作,如实验结果部门(第4节)所示。
3.2 Auxiliary Heads

通常,数据驱动的端到端自动驾驶方法 [18, 26] 关注于总结一个可学习的自我特征
,以产生规划结果,这对于生成可靠且准确的规划轨迹至关重要。这个可学习的自我特征聚合了来自上游模块的所有相关信息,通过不同的网络传递。在我们的方法中,我们开发了辅助头,以该自我特征作为输入,使模子能够提炼VLM相应中的知识。
Annotation Encoding. 利用
问题,我们得到三个文本相应,记为
,分别代表当前动作的形貌、将来动作猜测和推理。利用
问题,我们从预界说集合中得到三个动作,记为
,分别对应控制动作、转弯动作和车道动作。为了将这些解释转换为监督信号,我们接纳两种不同的方法生成两种对应的标签,有效地将它们集成到端到端自动驾驶流程中作为监督信号。对于来自
的自由形式文本解释,我们利用现成的语言模子(如CLIP [45])将文本转换为特征表示。对于结构化答案,每个动作被编码为一个独热标签。形式化表示为:

此中
各有三个组成部门:
= {
,
,
}
= {
,
,
}
。这里,
、 
、和
是大小为C的特征向量,此中C是文本嵌入的维度,而
是三个独热动作标签,大小分别为
= 4
= 4
= 5

Text Feature Alignment. 利用三个文本特征
= {
,
,
}
作为监督信号,我们开发了一个特征对齐头,它以自我特征
作为输入。这种设置雷同于知识蒸馏 [16],此中特征对齐头学习与教师VLM提供的文本特征对齐。在这个头中,我们初始化三个可学习的文本查询,
= {
,
}
。每个查询通过多头交织注意力(MHCA)块与自我特征
交互,此中文本查询作为注意力查询q,自我特征作为键k 和值v,产生更新后的文本查询。然后,这些更新后的查询与自我特征连接,形成该文本头的特征表示,随后通过一个多层感知机(MLP)层生成最终的特征对齐输出。这一过程可以表示为:

 此中⊕表示连接利用,而
= {
,
,
}        表示三个输出特征,用于与相应的VLM文本特征对齐。必要注意的是,我们为每个组成部门分别利用了三个独立的MHCA块,使每个文本查询能够专注于自我特征中可以用文本形式表示的特定方面。
受到DINO [1]中知识蒸馏方法的启发,该方法通过控制特征向量的平滑度和锐度来增强特征对齐质量,我们接纳了雷同的战略,分别对文本特征和输出特征举行归一化处理,生成特征分布而非原始特征值。具体公式如下:

此中
是控制这些分布锐度的温度参数。这种调整能够更好地对齐输出特征和监督标签,提升知识蒸馏的对齐质量。必要注意的是,我们没有应用中心化利用,因为我们认为监督信号是真实值。
Structured Action Classification.  我们通干涉题
从 VLM 中得到结构化的动作标签
= {
,
,
}
。我们构建了一个动作分类头,它以自我特征
作为输入。与前面的特征对齐阶段雷同,我们初始化了三个可学习的动作查询
,并通过三个多头交织注意力(MHCA)块与
举行交互。在此设置中,每个动作查询作为注意力查询 q,而自我特征作为键 k 和值 v,从而产生更新后的动作查询。然后,我们将这些更新后的查询与自我特征连接,形成动作分类头的特征表示,并通过一个多层感知机(MLP)层,随后利用 Softmax 函数生成动作猜测。这一过程可以表示为:

此中
= {
,
,
} 分别表示猜测的控制动作、转弯动作和车道动作。我们为每个动作查询利用独立的 MHCA 块,以生成不同的动作标签。
3.3 Auxiliary Loss

我们界说了两个平行的辅助任务,跟随规划模块之后,以使模子能够从视觉语言模子(VLM)中提炼知识。整体训练丧失界说为这两个辅助任务丧失的加权和:

此中每个组成部门对应一个特定的辅助文本头,为模子提供针对性的监督信号:

        对于特征对齐任务,我们利用交织熵loss来对齐监督特征和输出特征,确保模子能够学习到文本中传达的关键信息。对于动作分类任务,我们同样利用交织熵丧失,以确保动作分类的准确性。
4. 实验

4.1 设置

Baselines.我们提出的方法是一个通用框架,兼容多种端到端自动驾驶方法。我们通过将其应用于两个广泛认可的开源方法——UniAD [18] 和 VAD [26]——来验证其有效性。别的,我们还将我们的方法与 VLP [40] 举行比力,VLP 通过 CLIP [45] 将自车的真值标签投影到文本特征空间中,用于对比学习。
Dataset. 我们利用 nuScenes 数据集 [3] 举行开放环路规划评估。nuScenes 是一个大规模的自动驾驶数据集,包含 1000 个场景,每个场景一连约 20 秒,标注频率为 2Hz。该数据集包含详细的标注,是端到端自动驾驶研究中的热门基准。
Evaluation Protocol. 我们专注于规划任务,并利用标准指标(如 L2 位移误差和碰撞率)来评估性能。
Implementation Details. 我们利用 UniAD [18] 和 VAD [26] 的官方代码,并遵循其指定的超参数。对于我们的 VLM-AD 方法,我们为每个辅助任务头界说了一个包含 8 个头和 3 层交织注意力的多头交织注意力(MHCA)模块,并为每个问题
设置了 3 个文本查询。在训练过程中,我们将温度参数
设置为 0.1,
设置为 0.04,以控制特征的锐度,并将
设置为 1,
设置为 0.1,以平衡
的权重。所有模子均在 8 块 NVIDIA H100 GPU 上利用 PyTorch 框架 [41] 举行训练。完备的实现细节、标注质量分析以及更多实验结果已在增补质料中提供。
      
       表 1. 我们提出的 VLM-AD 方法与基线的规划结果。最佳结果以粗体表现,次佳结果以下划线表现。VLM-AD 一致优于基线,此中以推理为重点的 贡献了最显著的改进。        4.2 主要结果

表 1 展示了将我们的 VLM-AD 方法应用于 UniAD 和 VAD 的结果,并与 VLP 举行了比力。通过比力方法 ID 0 和 1,我们利用作者提供的官方训练查抄点,得到了险些相同的规划结果。对于方法 IDs 6 和 7,以及 IDs 12 和 13,我们发现在作者的复现结果与陈诉值之间存在一些差异,我们认为这是由于官方代码库中图像配置的修正 [3] 所导致的。从表的第一部门可以看出,通过引入
,VLM-AD 在平均 L2 规划误差和平均碰撞率方面显著优于 UniAD,而且在两项指标上均优于最先进的基线 VLP。对于 VAD,我们的 VLM-AD 一致优于 VAD-Base 和 VAD-Tiny,尤其是在 L2 规划误差指标上,而且在 VAD-Base 中的性能优于 VLP。这些结果证明了我们 VLM-AD 方法的有效性和优势。别的,
的体现优于
,验证了通过丰富的推理信息监督驾驶模子的价值。


4.3 溶解研究

子问题的贡献。我们进一步分析了
中的每个子问题(
)的贡献。每个子问题提供了与自车当前状态、猜测的将来动作和推理相关的特定文本信息。表 2 展示了这些子问题的溶解研究结果。结果表明,每个子问题都对整体性能产生了积极影响,证明了我们计划的问题为规划任务提供了有价值的信息。值得注意的是,推理特征对降低 L2 规划误差的贡献最大,突显了推理信息在提升驾驶性能中的重要性。
特征对齐丧失。我们还研究了特征对齐的其他选项,包括利用 CLIP [45] 中的对比学习丧失、均方误差(MSE)丧失、KL 散度丧失 [30] 或最大化负余弦相似度来对齐
的三个特征。表 3 的结果表明,MSE 丧失在最小化特征之间的欧几里得隔断时体现略优于 UniAD,但会导致训练过程中信息丢失。CLIP 丧失、KL 散度和余弦相似度均优于 UniAD,但不如我们提出的对齐丧失。这突显了利用不同温度对教师-门生特征的平滑度和锐度举行归一化的重要性。
模子计划。我们研究了方法中的替代计划选项。首先,我们在结构化动作分类头中用多层感知机(MLP)层取代 MHCA 块。其次,我们研究了不同的语言模子,如 T5 [46] 和 MPNet [50],除了 CLIP 之外,还用于将
的文本标注编码为监督标签。从表 4 可以看出,利用 MLP 的方法在 L2 性能上略逊于 UniAD,碰撞率则相同。别的,T5 和 MPNet 的体现均优于 UniAD 基线,但略逊于 CLIP。

Hyperparameter Study. 在多任务学习中,平衡不同任务的丧失是一个关键寻衅。我们研究了在 UniAD 中 
的超参数。表 5 的结果表明,所有三种变体均优于 UniAD。在这些变体中,当
= 0.1 且
= 1 时,性能最差,因为
的标注包含的信息比
的标注更有价值。

图4. UniAD与我们方法的定性比力。黄色箭头突出表现了VLM-AD优于UniAD的区域。红色框表示UniAD的失败规划命令,紫色框表示我们VLM-AD辅助文本头猜测的三个动作输出。 
4.4 可视化

我们从 nuScenes 数据集中提供了四个可视化示例,如图 4 所示,以展示我们提出方法的有效性。在第一、第三和最后一行的案例中,UniAD 生成的规划轨迹曲折且缺乏平滑性,而我们的方法生成的轨迹能够准确地沿着道路行驶。别的,在第二、第三和最后一行的案例中,基线方法错误地建议了转弯意图,而自车现实上是在直行。我们的动作文本头精确地输出了“直行”的控制动作,不光验证了 VLM 监督的有效性,还为模子的决议提供了可解释性。
5. 结论

在本工作中,我们提出了 VLM-AD,这是一种通过利用视觉语言模子(VLMs)作为辅助教师来增强端到端自动驾驶模子的新方法。通过针对 VLM 提出包含非结构化推理文本和结构化动作标签的问题,我们将推理和动作监督信息整合到训练过程中。我们的方法在 nuScenes 数据集上显著提升了规划精度,并降低了碰撞率,同时通过动作猜测为输出轨迹提供了可解释性。重要的是,VLM-AD 在推理时不必要 VLM,使其能够以即插即用的方式部署于现实应用中,而不会增长额外的推理成本。
A. 实现细节

        当将我们提出的 VLM-AD 方法集成到 UniAD [18] 中时,我们遵循 UniAD 界说的联合训练协议。在第一阶段,我们利用 BEVFormer [34] 的权重初始化模子,并训练感知和建图任务共 6 个epoch。在第二阶段,我们冻结图像主干网络和鸟瞰图编码器(BEV encoder),并利用我们提出的 VLM-AD 方法举行端到端训练,共 20 个epoch。模子利用初始学习率2 ×
、学习率衰减因子 0.1,并接纳 AdamW 优化器 [37],权重衰减为 0.01 举行训练。
        当将 VLM-AD 方法集成到 VAD [26] 中时,我们接纳了与原始实现相同的超参数。模子利用 AdamW优化器 [37] 和余弦退火调度器 [38] 举行训练,权重衰减为 0.01,初始学习率为 2×

        为了将自由形式的标注编码为文本特征,我们利用预训练的 CLIP-ViT-B/32 [45] 模子,其维度为 512。别的,我们还尝试了其他文本编码器,比方 T5-base [46] 和 MPNet-base [50],它们都将自由形式的标注编码为维度为 768 的文本特征,如第 4.3 节所述。
B. VLM Annotation





B.1. Visual Input

虽然我们在方法中利用了前视图像(如图5所示)作为视觉输入,我们也尝试了其他替代方案,包括利用覆盖自车四周360度全景的6张图像(如图6所示),以及利用一连的前视图像序列(如图7所示)。与利用全景图像作为输入相比,我们的方法能够产生雷同的标注结果,同时显著降低了计算成本,因为我们处理的输入图像更小。利用一连图像序列的第二种替代方案,通常会导致错误的标注,比方错误地辨认当前动作状态,以及未能检测到左转动作。这是因为VLM在理解自我中心视觉信号的时间动态方面存在寻衅。别的,利用一连图像会将标注时间增长约80%,相比我们的方法。



B.2. Annotation Statistics

我们对nuScenes数据集的训练集举行了标注,该数据集包含700个场景和28,130帧图像。按照第3节中形貌的方法,我们将自车的将来轨迹投影到前视图像上,并将时间步长T设置为6。与UniAD [18]一致,我们扫除了缺乏足够输入数据的样本,最终得到28,032个标注样本。对于利用
的自由形式推理标注,我们计算了每个子问题(
)的相应文本长度。统计结果如表6所示,此中推理标注Ar的平均相应长度最长,因为该子问题专注于详细的推理信息。对于利用
的结构化动作标注,我们分析了三种类型动作的分布,结果如图8、图9和图10所示。约莫62%的帧被标注为“直行”,89.4%为“无转弯动作”,97.3%为“无变道动作”。值得注意的是,没有帧被标注为“倒车”或“掉头”,只有少少数帧被标注为“并入左车道”或“并入右车道”。这些统计结果表明nuScenes数据集在驾驶动作的多样性方面存在肯定局限性。一个有趣的观察是,VLM偶尔会输出不在我们预界说动作列表中的动作,比方“稍微左转”、“稍微右转”、“稍微向左移动”和“稍微向右移动”。在我们的工作中,我们将这些输出归并到预界说的独热类别中:“稍微左转”归并到“左转”,“稍微右转”归并到“右转”,“稍微向左移动”归并到“向左变道”,“稍微向右移动”归并到“向右变道”。这突显了利用结构化标注的优势,因为它们可以通过将VLM的输出限制在预界说的类别中来减少幻觉(hallucinations)。

B.3. Annotation Quality

为了验证VLM生成的标注质量,我们制作了一个包含50个随机样本的问卷举行评估。对于每个样本,到场者被提供了自车的前视图像(带有将来轨迹的投影),以及相应的VLM标注(
)。然后,我们要求到场者对每个相应举行打分。对于自由形式的推理标注,我们设定了一个1到5分的评分标准,如下所示:


  • 5分:高度一致

    • 文本形貌与图像完善匹配。
    • 图像的关键元素(比方车辆状态、动作、推理)被准确形貌。
    • 文本清晰、简洁且完备,没有不必要的细节或矛盾之处。

  • 4分:大多一致

    • 文本形貌与图像大部门一致,但存在少量不准确或遗漏之处。
    • 关键元素被形貌,但可能缺少一些次要细节。
    • 或者,文本可能包含少量冗余或略微不相关的细节,但不影响整体匹配。

  • 3分:部门一致

    • 文本形貌与图像部门匹配,但存在显着的不准确或缺失细节。
    • 图像的重要方面(比方车辆速率、道路状况)可能被低估或错误形貌。
    • 可能存在一些冲突或含糊的陈述。

  • 2分:大多不一致

    • 文本形貌与图像大部门不一致,但包含少量相关信息。
    • 形貌未能捕捉到图像的关键细节或包含显着的错误。
    • 文本中存在逻辑错误或矛盾。

  • 1分:完全不一致

    • 文本形貌与图像完全不匹配。
    • 文本完全不相关或在重要方面与图像相矛盾。
    • 包含误导性信息,严重影响可解释性。

对于结构化动作标注,我们要求到场者对每个动作标注举行“精确”或“错误”的判断。
我们对5名到场者的评估结果举行了汇总,如表7所示。评分结果验证了标注的整体质量。具体来说,猜测将来动作的标注 Af 得分最高,而形貌推理的标注 Ar 得分最低。别的,对于动作标注,所有三种动作类型的准确率均在90%以上,此中车道动作的准确率最高,达到96%。


B.4. Successful Annotation Examples

我们提供了三个示例来展示VLM标注的质量,如图11、图12和图13所示。在图11中,VLM准确辨认了红灯,并建议在路口停车。它还公道地猜测了将来的动作,并清晰地解释了决议背后的逻辑。在图12中,前方有一辆白色货车,但位于对面车道。VLM精确评估了这辆货车不会影响自车的行驶,并输出了适当的驾驶动作。在图13中,自车在雨天的路口停下。只管能见度较低,VLM仍然成功辨认了红灯,并根据交通灯的状态猜测了将来的动作。

B.5. Imperfect Annotation Examples

我们也提供了三个标注失败的案例,如图14、图15和图16所示。在图14中,VLM准确辨认了绿灯,并根据推理标注猜测了将来右转的动作。然而,它错误地从动作标注中输出了左转动作。由于我们分别查询Q1和Q2,因此Q1的相应不会影响Q2。一个可能的办理方案是引入额外的提示,以创建一个逐步提问的过程,从而得到更准确的动作标注。
在图15中,VLM输出“停车”或“慢行”作为自车的当前状态。只管这些输出是公道的,但它们与真真相况不一致,因为投影的将来轨迹表明自车正在右转。另一方面,动作标注成功猜测了精确的将来动作。在图16中,VLM错误地将行人交通灯误认为是交通灯,并提供了错误的相应。总体而言,只管偶尔会出现错误,但VLM能够生成有意义的标注,揭示驾驶决议背后的逻辑,这也验证了我们的实验结果。通过分别查询两个独立的标注问题,我们的方法对VLM的错误具有肯定的鲁棒性,因为错误通常只出现在此中一个相应中,如图14和图15所示。我们将获取更准确的VLM相应作为将来的工作,以进一步提升端到端规划模子的性能。
C. Additional Qualitative Examples

我们提供了图4的增强版本,通过一系列单独的图像展示:图17、图18、图19和图20。每幅图像都包含了数据集中的全部6个摄像头的图像,只管我们的VLM标注流程仅关注前视图像,如第3.1节所述。除了图4之外,我们还额外提供了4个定性比力示例,以展示我们提出的方法与UniAD之间的规划结果差异,如图21、图22、图23和图24所示。在图21和图22中,UniAD生成的规划轨迹曲折且缺乏平滑性,未能保持在车道中心。相比之下,我们的方法生成的轨迹显着更加平滑,而且能够保持在车道边界内。同样,在图23和图24中,UniAD生成的命令是错误的,因为自车现实上是在直行。然而,我们的动作头成功猜测了这些场景中的精确动作。这些定性示例突显了VLM-AD在复杂驾驶场景中生成更平滑、更准确的规划轨迹的本领,同时提供了更强的可解释性。

 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

东湖之滨

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表