论文标题:AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning 论文作者:Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang 论文所在:https://arxiv.org/pdf/2503.07608 代码仓库:GitHub - hustvl/AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
规划嘉奖模型 四种 GRPO 规划嘉奖,专门为自动驾驶规划任务计划:
规划正确性嘉奖:在数学或编程等领域,GRPO 的嘉奖可以直观地根据最终答案是否精确来确定。然而,规划更为复杂,涉及横向(方向)和纵向(速率)两个维度,且动作集合受到束缚。因此,使用 F1 分数分别评估横向和纵向决策的正确性,并据此分配嘉奖。采用 F1 分数进行评估,因为它不仅防止模型学习捷径办理方案(输出所有决策大概导致高召回率但低正确率),还进步了训练初期的稳固性。