让主动驾驶体系无限逼近人类?最新混合规划器实现高度安全的实车导航 ...

打印 上一主题 下一主题

主题 656|帖子 656|积分 1968

导读:
  本篇文章针对基于学习的规划器难以保证安全闭环驾驶这一问题,提出了一种新型的混合运动规划器,其结合了基于学习和基于优化的技能。通过仿真实验和实车实验,证明了本文规划器的有效性和鲁棒性。©️【深蓝AI】编译
  1. 摘要

随着nuPlan和Argoverse等开源数据集的发布,围绕基于学习的规划器的研究在已往几年中得到敏捷发展。现有的体系在模拟人类驾驶员举动方面显现出良好的本领,但是它们难以保证安全的闭环驾驶。相反,基于优化的规划器在短期规划场景中提供了更高的安全性。为了应对这一挑战,本文提出了一种新型的混合运动规划器,其结合了基于学习和基于优化的技能。最初,多层感知器(MLP)天生了类人的轨迹,然后由基于优化的组件进行细化。该组件不仅最小化跟踪误差,还计算出运动学可行且与停滞物和门路界限不发生碰撞的轨迹。本文模型有效地平衡了安全性和类人性,缓解了这些目标的固有权衡。本文通过仿真实验验证了所提出的方法,而且通过将其部署在实际世界主动驾驶汽车上,以进一步证明其有效性。
2. 介绍

由于主动驾驶汽车具有提高安全性和门路使用率的潜力,预计将在未来的出行中发挥至关紧张的作用。为了确保这些优势,其规划组件必须提供安全、舒服且无碰撞的轨迹,同时思量静态和动态交通元素。传统的轨迹规划方法包括基于规则、基于采样和基于优化的方法,这些方法依靠于人工界说的代价和目标函数,通过A*、RRT、动态规划和模型预测轨迹算法等经典技能进行优化。这些方法是可靠且可解释的,但是难以扩展到复杂的都会场景中,而且无法使用数据来改进,需要大量的工程调试。
nuPlan和Argoverse等开源数据集的可用性推动了基于学习的规划器研究的发展,这些规划器非常善于天生类人的轨迹。然而,这些在开环设置下训练的模型无法保证在闭环应用(特别是新的场景)中的安全性,因为它们太过依靠训练数据。为了办理此类局限,学者们可以在训练数据会合引入扰动,以帮助车辆从伤害情况中恢复而且缓解协变量偏移问题。或者,使用可微分仿真器进行闭环训练。尽管存在多种改进方向,但是基于学习的模型仍然难以泛化到未见过的场景,这使其对实际世界交通不安全。
基于上述泛化性问题,本文提出了两个关键贡献:
1)结合基于学习和基于优化的技能,以构建混合模拟学习模型。这种结合旨在天生安全、类人的轨迹,平衡这些目标之间的权衡;
2)在都会情况中的实车上验证该混合模型,证明其在仿真之外的实际有效性和鲁棒性。
针对基于学习的规划器的大多数研究仅限于仿真,这大概无法体现在实际世界中的性能。本文的目标是提高基于学习的模型的短期规划本领,确保其在实际都会情况中的安全性和可靠性。本项研究着重于规划,假设定位、感知、建图和控制模块已经存在。
3. 体系架构

本节描述混合模拟学习模型——其结合了基于学习的规划器与基于优化的组件,从而天生运动学可行的无碰撞轨迹。如图1所示,该体系输入自车状态、感知观测和目标地,通过规划器模块天生基于采样的轨迹。多层感知器(MLP)对该轨迹进行细化,以模拟类人的举动。模型预测轨迹(MPT)模块对其进行优化,以制止与停滞物和门路界限发生碰撞。

3.1 规划器
规划器模块与多层感知器结合的灵感来自于PDM-Open模型,该模型将自车的位姿、速度和加快度、观测结果(用于智能体预测)和目标作为输入,负责利用Dijkstra算法寻找从起始位置到终点的中心线,而且依靠基于采样的方法计算无碰撞路径。
规划器按以下方式计算出15条不同的路径:
1)从中心线开始,采用5种不同的智能驾驶员模型(IDM)策略以及特定的目标速度,详细为速度限定的20%、40%、60%、80%和100%。当火线有先行车辆时,速度限定界说为先行车辆的速度;
2)其次,为了得到横向方差,还应用3种不同的偏移,分别为+1m、-1m和0m。
这样,就得到了15条不同的路径,其具有纵向和横向变化,这在预测情况中进行仿真,而且根据nuPlan提供的闭环指标进行评分。然后,选择具有最高得分的路径,如果在2秒内发生预期的故障碰撞,则输出将被最大制动力所覆盖。
3.2 多层感知器(MLP)
多层感知器负责天生输出轨迹,该轨迹大概与专家驾驶员轨迹相似。为了完成轨迹天生使命,神经网络将自车的位姿、纵向、横向和角轴的速度和加快度(从已往2秒到当前时刻)以及规划器模块计算的路径作为输入。这些输入通过线性层缩放到512维向量,然后将它们毗连起来而且传入MLP。
MLP由两个512维线性层组成,具有dropout(p=0.1)和ReLU激活函数。输出层是一个线性层,在接下来8秒内对未来路径点进行回归。该输出称为“神经网络轨迹”,其经过训练以最小化路径点与数据集提供的专家驾驶员轨迹之间的L2间隔,该数据集提供了超过88000个场景,长度为15秒,其中包含用于训练目标的人类驾驶员轨迹。
3.3 模型预测轨迹(MPT)
基于优化的组件利用了MPT算法,该算法结合了MLP天生的“神经网络轨迹”、可行驶区域、自车位姿和速度以及感知体系的观测结果等输入。其紧张功能是天生最优轨迹,其确保了无碰撞导航而且依照运动学可行性。
为了求解优化问题,本文界说了软约束和硬约束:
1)软约束:无碰撞条件被作为软约束,因为如果优化的轨迹不是无碰撞的,则思量先前天生的轨迹;
2)硬约束:由于自车附近的轨迹必须是平滑的,因此唯一的硬约束是自车附近的轨迹点必须与先前天生的轨迹相同,以制止忽然的转向举动。该硬约束如下:
                                                    δ                               k                                      =                                       δ                               k                                           p                                  r                                  e                                  v                                                          i                            f                            (                            0                            ≤                            i                            ≤                                       N                                           f                                  i                                  x                                                 )                                  \delta_k = \delta_k^{prev} \quad if(0 \leq i \leq N_{fix})                     δk​=δkprev​if(0≤i≤Nfix​)
其中:
●                                             δ                            k                                       \delta_k                  δk​表示当前轨迹点的转向角;
●                                             δ                            k                                       p                               r                               e                               v                                                 \delta_k^{prev}                  δkprev​表示先前轨迹点的转向角,它确保当前轨迹点的转向角与先前轨迹点的转向角保持一致;
●                                             N                                       f                               i                               x                                                 N_{fix}                  Nfix​表示固定轨迹点的数目,它决定了硬约束应用的范围。
优化问题的目标函数最小化跟踪误差和自车的转向加快度、速度和角度,其界说如下:
$$\begin{matrix} J = w_y \sum_{k}y^2_k + w_{\theta}\sum_{k}\theta^2_k + w_{\delta}\sum_{k}\delta^2_k \newline \


  • w_{\dot\delta}\sum_{k}\dot\delta^2_k
  • w_{\ddot\delta}\sum_{k}\ddot\delta^2_k
    \end{matrix} \tag{1}$$
其中在时刻                                   k                              k                  k,界说如下变量:
●                                             y                            k                                       y_k                  yk​:到参考路径的横向间隔;
●                                             θ                            k                                       \theta_k                  θk​:相对参考路径的朝向角度;
●                                             δ                            k                                       \delta_k                  δk​:转向角;
●                                                        δ                               ˙                                      k                                       \dot\delta_k                  δ˙k​:转向速度;
●                                                        δ                               ¨                                      k                                       \ddot\delta_k                  δ¨k​:转向加快度;
●                                             w                            y                                       w_y                  wy​、                                             w                            θ                                       w_{\theta}                  wθ​、                                             w                            δ                                       w_{\delta}                  wδ​、                                             w                                       δ                               ˙                                                 w_{\dot\delta}                  wδ˙​和                                             w                                       δ                               ¨                                                 w_{\ddot\delta}                  wδ¨​:调整权重。
MPT通过将其它智能体的观测结果作为输入,也能够执行自适应巡航规划举动。巡航规划的作用是通过平滑的速度过渡与动态车辆目标保持安全间隔。
该安全间隔由如下公式动态计算:
                                         d                            =                                       v                                           e                                  g                                  o                                                            t                                           i                                  d                                  l                                  i                                  n                                  g                                                 +                                       1                               2                                                 a                                           e                                  g                                  o                                                            t                                           i                                  d                                  l                                  i                                  n                                  g                                          2                                      +                                                   v                                               e                                     g                                     o                                              2                                                      2                                               a                                                   e                                        g                                        o                                                                          −                                                   v                                               o                                     b                                     s                                     t                                     a                                     c                                     l                                     e                                              2                                                      2                                               a                                                   o                                        b                                        s                                        t                                        a                                        c                                        l                                        e                                                                                d = v_{ego}t_{idling} + \frac{1}{2}a_{ego}t^2_{idling} + \frac{v^2_{ego}}{2a_{ego}} - \frac{v^2_{obstacle}}{2a_{obstacle}}                     d=vego​tidling​+21​aego​tidling2​+2aego​vego2​​−2aobstacle​vobstacle2​​
其中:
●                                   d                              d                  d为计算的安全间隔;
●                                             t                                       i                               d                               l                               i                               n                               g                                                 t_{idling}                  tidling​为自车检测火线车辆减速的怠速时间;
●                                             v                                       e                               g                               o                                                 v_{ego}                  vego​为自车的当前速度;
●                                             v                                       o                               b                               s                               t                               a                               c                               l                               e                                                 v_{obstacle}                  vobstacle​为火线停滞物的当前速度;
●                                             a                                       e                               g                               o                                                 a_{ego}                  aego​为自车的加快度;
●                                             a                                       o                               b                               s                               t                               a                               c                               l                               e                                                 a_{obstacle}                  aobstacle​为停滞物的加快度。
为了在优化平滑速度过渡的同时维持安全间隔,本文求解了一个优化问题。目标函数最小化与盼望速度的偏差和加快度的平滑性:
                                         J                            =                                       ∑                               k                                      (                                       w                               v                                      (                                       v                                           d                                  e                                  s                                  i                                  r                                  e                                  d                                                 −                                       v                                           e                                  g                                  o                                  ,                                  k                                                            )                               2                                      +                                       w                               a                                                 a                                           e                                  g                                  o                                  ,                                  k                                          2                                      )                                  J = \sum_k(w_v(v_{desired} - v_{ego,k})^2 + w_aa^2_{ego,k})                     J=k∑​(wv​(vdesired​−vego,k​)2+wa​aego,k2​)
该优化问题受安全间隔                                   d                              d                  d、速度和加快度的限定。通过在每一时刻求解该问题,自车能够适应变化,而且确保安全且高效的巡航(留意,                                             w                            v                                       w_v                  wv​和                                             w                            a                                       w_a                  wa​是调整权重)。
4. 实验和结果

4.1 基线
本文首先分析了nuPlan开环(OL)、闭环非反应(CL-NR)和闭环反应(CL-R)仿真中基线模型的结果,如表1所示。通过仿真器的内置指标计算得分。开环仿真评估了规划器对专家驾驶员门路的模拟,而闭环仿真评估了轨迹的安全性、舒服性和避障本领。每个仿真根据这些标准分配一个0到100之间的得分。

细致观察表1,结果中出现了可辩别的模式。详细而言,Urban Driver、PDM-Open和GC-PGP作为基于学习的模型,在开环仿真中显现出良好的性能,但是在闭环场景中体现不佳。
相反,基于规则的IDM和基于采样的PDM-Closed模型体现出相反的举动:在开环仿真中体现不佳,而在闭环仿真中逾越了基于学习的模型。
这些研究结果表明,基于学习的模型在预测自车运动方面体现出色,该模型能够复制人类轨迹。但与基于规则、采样或者优化的方法不同,该模型本身并不能确保安全的闭环驾驶。
4.2 ROS仿真器
研究者们在实车上直接测试模型之前,在仿真器中已进行了若干实验,图2显现了不同的实验结果。

绿线是“神经网络轨迹”,是神经网络的直接输出。正如预期的那样,它无法提供安全的闭环驾驶,如图2提供的极端情况,它通常会超过车道的界限,导致不安全且伤害的情况发生,而无法保证天生无碰撞的轨迹。尽管如此,它显现出良好的泛化本领,因为评估过程中思量的地图和场景与训练阶段的完全不同。
然而,代表“MPT轨迹”的粉线完美地使车辆在车道界限内行驶,将多层感知器的输出重新界说为安全且无碰撞的路径。
该模型还能够与静态停滞物进行避障操作,而且与动态智能体进行自适应巡航控制驾驶。
这些实验结果可以证明混合运动规划器安全闭环驾驶本领的有效性,其能够通过优化过程计算细化的输出来防止碰撞和不可行的轨迹。
然而,评估模型模拟人类驾驶风格的本领需要定性分析。
为此,本文研究了若干个定性结果,显现了默认的基于优化的规划器与本文提出的混合运动规划器之间的一些比较。除了轨迹形状之外,还提供了速度和加快度曲线,以更好地评估类人性。
在图3中,默认规划器和混合规划器的轨迹在形状方面显现出惊人的相似性。然而,经过细致查抄,可以留意到一个风趣的区别:混合模型的轨迹在弯道附近徐徐变宽,偏离车道中心线,更靠近人类驾驶员举动。

别的,与基于优化的模型相比,混合规划器的速度和加快度曲线平滑得多。在基于优化的模型中,很明显存在忽然的加快举动,这会导致整体运动不连续。
在图4中,尽管两个规划器的速度和加快度曲线看起来非常相似,但是读者们可以从中区分出轨迹形状的显著差别。尽管默认规划器险些完美地依照车道中心线,从而形成几何路径,而混合模型会远离中心线,但是其通过一次操作就完成两次转弯。

雷同地,图5中使用混合模型得到了类人的轨迹,该轨迹在弯道处变宽。别的,在图像的顶部,可以留意到一个关于轨迹形状的风趣举动,即车道右界限有一个忽然的台阶,这会影响默认规划器的轨迹。相反,混合规划器完全忽略了车道界限上的台阶而且不影响运动,从而得到了更舒服的路径。

图6展示了另一个风趣的情况,其中仿真了自适应巡航控制举动。

默认规划器在开始时忽然加快,在短时间内达到高速,而且在遇到火线车辆时忽然刹车,这导致运动不舒服且不连续,而混合规划器采用更平滑的轨迹,推断出正确的加快度,以制止冒失且草率的举动。
由于实验是沿着直线进行的,因此两条轨迹之间没有明显的差别,本文将重点转移到分析图7中时域速度和加快度上,可以留意到混合模型的运动更具平滑性。

除了定性分析之外,本文还通过查抄时域中的加加快度曲线,以将重点转移到定量结果上。忽然提高的加加快度是机器人举动的特性,而平稳的加加快度则反映了更像人类的驾驶风格。
在图8中,可以留意到基于优化的规划器的加加快度曲线有一处高峰,而混合运动规划器的加加快度曲线仍然维持稳定。

4.3 实际世界驾驶
在仿真器情况中进行若干次成功的测试后,现在将案例研究转移到实际世界场景中。该模型已经部署到Pix Moving公司制造和设计的车辆上,该车辆称为Robobus。Robobus是一款双向L4级别的主动驾驶汽车,其配备了激光雷达、雷达、相机、GNSS和IMU等传感器。其设计最多可运送6人,最高时速为30km/h,已经在中国和日本的一些地区投入使用。实验在真实的交通场景中进行,涉及其它静态和动态智能体,如图9所示。

该规划器在交通场景中导航时显现出稳定性和鲁棒性,特别是在低速(低于15km/h)场景。由于基于优化的组件改进了神经网络的输出,终极的轨迹始终在车道界限内,而且与停滞物和其它智能体不会发生碰撞。
5. 总结

本文引入了一种混合模拟学习运动规划器,旨在确保安全、无碰撞的轨迹,这些轨迹与人类举动非常相似。本文的模型在仿真中显现出令人印象深刻的性能,对训练过程中没有见过的各种地图、场景和情况体现出强大的泛化本领。这突显了其鲁棒的本领。别的,本文方法在实际世界主动驾驶汽车上部署时证明是有效的,特别是在低速时。未来的研究工作应该优先思量以更高的速度测试模型,以更好地为实际世界都会驾驶场景做好预备。
©️【深蓝AI】
Ref:
Hybrid Imitation-Learning Motion Planner for Urban Driving
编译|auto_driver
考核|Los

本文首发于微信公众号【深蓝AI】,移步公众号【深蓝AI】,第一时间获取主动驾驶、人工智能与机器人行业最新最前沿论文和科技动态

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

兜兜零元

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表