地平线AlphaDrive:首个基于GRPO的自动驾驶大模型,仅用20%数据,性能超越S ...

打印 上一主题 下一主题

主题 1607|帖子 1607|积分 4821

人类具有终身学习的明显本领,能够连续获取知识并顺应新的任务场景。这种终身学习的本领被以为是实现通用智能的关键机制。只管现有人工智能技术在图像天生、文章写作和自动驾驶等领域取得了明显成就,但它们主要专注于特定领域的任务,广泛缺乏终身学习本领。
  ©️【深蓝AI】编译

论文标题:AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
论文作者:Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
论文所在:https://arxiv.org/pdf/2503.07608
代码仓库:GitHub - hustvl/AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning



1,背景介绍


端到端自动驾驶成为最具代表性的模型之一。它们以传感器数据为输入,使用可学习的神经网络规划车辆的将来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数,不断提升了其规划本领。然而,由于其黑盒性子和缺乏知识,端到端模型在处理复杂和长尾驾驶场景时仍面临重大寻衅。同时,大语言模型(LLMs)展现出杰出的理解和推理本领。它们的本领已从单模态的文本理解扩展到多模态的视觉语言处理。VLMs 的知识和推理本领可以弥补端到端模型的局限性。将VLMs应用于自动驾驶的研究当前分为两个方向。第一个方向偏重于使用 VLMs 进行驾驶场景的理解。第二个方向探索将VLMs用于规划。

本文主要探讨以下问题:怎样将强化学习和推理技术应用于自动驾驶,特殊是在规划中,以提升 VLMs 在自动驾驶中的性能,同时降低训练成本。

通过实验,作者发现直接将现有的RL和推理技术应用于规划会导致性能不佳,主要原因有:首先,通用任务中的强化学习嘉奖计划并不适合规划。其次,与数学或计数不同,规划的办理方案通常并不唯一。末了,自动驾驶领域缺乏现成的能够捕获推理过程的数据集。网络此类数据的成本非常高,而且需要大量的人工标注。因此,直接将现有的推理技术应用于规划仍然具有寻衅性。



图 1 | AlphaDrive框架

为了办理上述寻衅,作者提出AlphaDrive。具体来说,本文主要贡献如下:
● 本文提出了AlphaDrive,它是一个专门为自动驾驶中的高层规划计划的 VLM。首个将基于 GRPO 的强化学习与规划推理相结归并应用于自动驾驶的框架,明显提升了性能和训练效率。
● AlphaDrive 引入了四种用于规划的 GRPO 嘉奖:规划正确性嘉奖、动作加权嘉奖、规划多样性嘉奖和规划格式嘉奖。这些优化后的嘉奖使 GRPO 更适合自动驾驶。
● 作者又提出了一种基于知识蒸馏的两阶段推理训练计谋,结合了 SFT 和 RL。与仅使用 RL 或不进行推理的训练相比,该方法实现了更好的规划性能。
● 在大规模驾驶数据集上的实验验证了 AlphaDrive 的优越性。与颠末 SFT 训练的模型相比,AlphaDrive 的规划正确性明显提升了 25.52%,而且仅使用 20% 的训练数据,就比 SFT 训练的模型高出 35.31%。而且,颠末 RL 训练后,AlphaDrive 表现出了一些多模态规划本领,这对于提升驾驶安全性和效率具有广阔的前景。

2,相干工作

视觉语言模型(VLMs)
大模型的本领渐渐从单一模态扩展到多模态,大型视觉语言模型(VLMs)在视觉理解和推理方面展现出杰出的本领。一些尝试将视觉模型与大型语言模型(LLMs)结合,例如BLIP 引入了 Q-Former 架构和跨模态对比学习任务,以桥接视觉编码器和 LLMs。LLaVA 提出使用简单的 MLP 作为视觉编码器和 LLMs 之间的连接器,在相对有限的数据下实现了令人印象深刻的视觉理解本领。

强化学习与推理  
自回归学习如今是 LLMs 的主流预训练计谋。别的,强化学习(RL)和推理技术进一步增强了大型模型的本领。例如,GPT 采用基于人类反馈的强化学习(RLHF),将人类反馈整合到训练过程中,使LLMs天生的输出更符合人类的习惯和偏好。直接偏好优化(DPO)通过直接优化偏好反馈来提升模型性能。在此基础上,组相对计谋优化(GRPO)引入了组相对优化计谋,考虑多个输出组之间的相对优劣,进一步进步了训练过程的稳固性和有效性。
近来的 DeepSeek R1 在基于GRPO的训练中履历了一个“顿悟时刻”,在没有明确指导的情况下,模型自主分配更多思索时间并重新评估其初始方法。这凸显了 RL 在使大型模型从单纯模拟演变为新兴智能方面的潜力。

在推理方面,头脑链(Chain-of-thought)通过将复杂问题分解并逐步推理,展现了出色的性能。基于头脑链的OpenAI o1引入了推理时扩展技术,通过增加推理时的计算成本并结合蒙特卡洛树搜索(MCTS)和束搜索(Beam Search)等搜索计谋,在科学和编程等需要复杂推理的领域取得了明显希望。这也表明,除了扩展模型参数和训练数据,扩展推理时的计算也是一个值得探索的方向。
自动驾驶规划  
规划是自动驾驶的最终任务。最早的规划算法是基于规则的,在泛化性和效率方面存在明显局限性。近年来,端到端模型通过统一的神经网络直接从传感器数据输出规划轨迹或控制信号。通过使用大规模驾驶演示数据,端到端模型以数据驱动的方式进行训练,取得了不错的规划性能。然而,由于端到端模型是缺乏知识和推理本领的黑盒模型,它们仍然难以办理自动驾驶中的长尾问题。

VLMs 与自动驾驶  
大模型的知识和推理本领可以有效弥补端到端模型在自动驾驶中的局限性。在呆板人领域,视觉-语言-动作(VLA)模型在理解语言指令和实行复杂动作方面取得了明显希望。在自动驾驶领域,DriveGPT4 使用VLMs以前视视频为输入,直接预测控制信号。ELM 使用大规模跨领域视频训练 VLMs,表明使用多领域数据可以有效提升VLMs在驾驶相干任务中的性能。OmniDrive提出使用希奇的3D标记表示驾驶场景,然后将其输入VLMs进行场景理解和规划。除了上述直接应用VLMs的工作外,DriveVLM首次将VLMs与端到端模型结合,此中VLMs预测低频轨迹,而端到端模型天生高频轨迹。


图 2 | AlphaDrive团体训练框架
3,架构精析

3.1,框架概述

与以往仅依赖监督微调(SFT)的方法不同,AlphaDrive结合强化学习(RL)和推理技术,以更好地顺应驾驶规划的特性:
(1)  不同驾驶举动的重要性差异;
(2)  存在多个可行的办理方案;
(3)  规划决策的推理数据稀缺。
它涉及四种基于 GRPO 的 RL 嘉奖,专门为规划任务计划,并引入了一种两阶段的规划推理训练计谋,将 SFT 与 RL 结合。
3.2,强化学习

强化学习算法选择:如今常用的 RL 算法包括 PPO、DPO 和 GRPO。给定查询,GRPO 从旧计谋
中采样一组输出
,并通过最大化以下目标函数来优化新计谋


AlphaDrive选GRPO作为RL 算法,主要基于:(1) DeepSeek R1 已证实 GRPO 在通用领域中的有效性,与其他算法相比,GRPO 提供了更高的训练稳固性和效率;(2) GRPO 引入的组相对优化计谋特殊适合规划任务。

规划嘉奖模型
四种 GRPO 规划嘉奖,专门为自动驾驶规划任务计划:​​​​​​​
规划正确性嘉奖:在数学或编程等领域,GRPO 的嘉奖可以直观地根据最终答案是否精确来确定。然而,规划更为复杂,涉及横向(方向)和纵向(速率)两个维度,且动作集合受到束缚。因此,使用 F1 分数分别评估横向和纵向决策的正确性,并据此分配嘉奖。采用 F1 分数进行评估,因为它不仅防止模型学习捷径办理方案(输出所有决策大概导致高召回率但低正确率),还进步了训练初期的稳固性。

动作加权嘉奖:规划中不偕举动的重要性不同。例如,减速和停车比保持速率对安全更为关键。因此,为不同动作分配不同的重要性权重,并将其作为加权组件纳入最终嘉奖。

规划多样性嘉奖:由于规划本质上是多模态的,在基于 GRPO 的 RL 训练中,模型会天生多个办理方案以进行组相对优化。在训练后期,模型的输出往往收敛到同一办理方案。目标是鼓励模型天生多种可行的办理方案,而不仅仅是与训练数据中的真实动作对齐。规划多样性嘉奖的目的是当模型的输出不同时分配更高的嘉奖;否则,减少嘉奖。

规划格式嘉奖:末了一个嘉奖用于规范输出,使其更容易提取推理过程和最终答案。该方法的灵感来自 R1。推理过程封装在 `<think></think>` 标签中,而规划效果则包含在 `<answer></answer>` 标签中。如果最终输出不符合此格式,格式嘉奖将设置为 0。

有关规划嘉奖建模的具体信息,如算法1所示。


算法 1 | 规划嘉奖建模过程

3.3,推理

规划推理训练计谋:自动驾驶的规划过程难以记载,且人工标注成本高,因此如今没有大规模、现成的规划推理数据集。将推理步骤直采取入 RL 训练过程,无法到达理想效果,主要存在以下问题:(1) 对关键要素(如交通灯)的感知不足;(2) 推理过程混乱,因果关系薄弱;(3) 推理输出过于冗长且无效。

因此,采用更强盛的云端大模型(如 GPT-4o),从少量驾驶片段中天生高质量的规划推理数据。具体而言,为模型提供包含真实驾驶动作、车辆当前状态和导航信息的提示,促使模型天生简洁的决策过程。颠末人工质量检查并过滤掉显着错误的样本后,模型可以基于该数据的知识蒸馏来提升规划推理本领。
3.4,训练

RL依赖于希奇的嘉奖信号,而SFT基于密集的监督,更适合知识蒸馏。别的,仅依赖 RL会导致训练初期的不稳固性。因此使用少量数据进行基于SFT的预热阶段,然后使用完备数据集进行RL训练。这种方法进步了训练初期的稳固性,并增强了模型的规划推理性能,可以实现更好的团体规划本领。
4,实验分析

4.1,实验设置

数据集:实验使用MetaAD作为训练和评估基准,这是一个大规模的真实天下驾驶数据集。该数据集包含120k个驾驶片段,每个片段连续三秒,支持多传感器数据和感知标注。
训练:使用Qwen2VL-2B作为基础模型。Qwen2VL是如今性能最佳的开源模型之一,其 2B 版本更好地满足了自动驾驶的延迟要求。
评估:评估指标包括两个方面。首先,通过计算所有横向和纵向元动作类别的 F1-Score 来权衡元动作规划的正确性,然后是团体规划正确性。别的,对于规划推理用 BLEU-4、CIDEr 和 METEOR 分数计算天生的规划推理过程与数据集中标注的推理过程之间的相似性。
4.2,实验效果

效果分析:表1展示了AlphaDrive在高级规划中的性能。前四行显示了直接评估相应预训练模型的效果。可以看出,虽然这些模型在通用本领上表现较强,但它们在规划中的表现不佳,这表明需要进一步使用驾驶数据进行训练。接下来的五行展示了在 MetaAD 数据集上微调后的模型效果。AlphaDrive明显优于其他模型,与表现第二好的 Qwen2VL-7B 相比,规划正确性进步了25.5%。在转向和加快/减速等关键决策上有显着提升。别的,规划推理的质量在所有模型中最佳,证实了提出的两阶段 RL 训练和推理计谋的有效性。


表1 | MetaAD数据集实验评估效果
4.3,溶解实验

规划嘉奖:表2 验证了四种GRPO规划嘉奖的有效性。使用基础正确性嘉奖的模型在所有指标上明显落伍(ID1),而结合规划格式嘉奖后略有改善(ID2)。采用提出的规划正确性嘉奖后,性能明显提升(ID3)。进一步结合动作加权嘉奖后,加快/减速决策得到了增强(ID4)。最终,结合规划多样性嘉奖,实现了最佳规划性能(ID5-6)。


表2 | GRPO规划嘉奖溶解实验效果
推理训练计谋: 表3展示了推理训练计谋的溶解研究。引入规划推理在不同训练计谋下均有效提升了模型性能,尤其是对加快和减速等复杂动作的改善明显,表明推理可以极大地增强复杂场景下的决策本领。别的,仅使用RL训练的模型在推理本领上不如使用 SFT训练的模型,这大概是因为较小模型的参数规模有限,导致感知和推理本领不足。因此,将SFT作为预热阶段,并通过知识蒸馏从更大模型中学习推理过程,可以有效办理这一问题。结合SFT和RL后,模型实现了最佳的规划推理本领。


表 3 | 不同推理训练计谋的溶解实验效果
训练数据量:表4展示了训练数据量对不同训练计谋的影响。当训练数据量减少时,SFT受到的影响更大。仅使用20k训练样本时,使用RL训练的模型规划正确性到达 46.08%,明显高于SFT训练的模型。当使用近一半数据(50k样本)时,AlphaDrive的规划正确性已到达 70.83%,证实了训练计谋的高效性。


表 4 | 不同训练数据量的溶解实验效果
4.4,多模态规划本领

图3 展示了AlphaDrive 在RL训练后的多模态规划本领。在复杂场景中,它可以有效天生多个可行办理方案,而SFT训练的模型只能天生单一的规划决策。AlphaDrive可以与卑鄙动作模型集成,动态地从多个选项中选择最优办理方案。


图 3 | AlphaDrive 定性实验效果
5,总结展望

AlphaDrive一种用于自动驾驶高级规划的 VLM。与之前仅使用 SFT 的模型相比,它将高级 RL 和推理技术集成到规划中。具体而言,AlphaDrive 引入了基于 GRPO 的规划导向 RL 计谋,并进一步计划了两阶段规划推理训练范式,明显提升了性能和训练效率。

但是,如今由于缺乏丰富的数据标注,AlphaDrive 仍无法输出更复杂的驾驶举动(如变道或避让)。别的,当前的规划推理数据来自基于真实驾驶动作的大模型天生的伪标签,仍然存在感知不正确和未能捕获关键因素的问题。因此,需要进一步系统性验证以进步数据质量,并验证 AlphaDrive 的性能上限。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

羊蹓狼

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表