COMPASS:通过残差强化学习和技能合成实现跨具身移动战略 ...

打印 上一主题 下一主题

主题 1864|帖子 1864|积分 5596

25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。
随着机器人越来越多地摆设在不同的应用领域,可泛化的跨具身移动战略变得越来越重要。虽然经典的移动栈已被证着实特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模拟学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变量漂移、大情况中的希罕采样和具身特定束缚的影响。
COMPASS,是一种通过集成 IL、残差 RL 和战略蒸馏来开发跨具身移动战略的工作流程。从移动机器人上的 IL 开始,使用易于访问的西席战略来练习将世界模子与移动战略相联合的基础模子。在此基础上,用残差 RL 来微调具身特定战略,使用预练习的表示来提高处理各种物理束缚和传感器模式的采样服从。最后,战略蒸馏将这些具身专家战略归并为一个强大的跨具身战略。
实证研究证实,COMPASS 可有效扩展到各种机器人平台,同时保持对各种情况配置的顺应性,实现一个通才战略,成功率比预练习的 IL 战略高出约 5 倍。由此产生的框架为跨实体移动性提供高效、可扩展的解决方案,使具有不同设计的机器人可以或许在复杂场景中安全高效地导航。
机器人技术在工业和日常生存中都取得重大进展,推动对协作机器人处理日益复杂任务的需求。然而,由于不同机器人平台在形态特征、运动学和传感器配置方面存在很多差异,开发强大的跨实体移动战略仍旧具有挑战性 [1]–[3]。这些差异使得创建一种在实际情况中既强大又顺应性强的一个普遍战略变得复杂。
经典移动栈 [4]、[5] 在特定机器人(尤其是轮式平台)上表现出色,但在移植到具有不同传感器套件和物理束缚的新实体时,通常需要进行大量重新调解或重新开发。这种对每个机器人优化的依赖,引起人们对端到端学习方法的兴趣 [6]、[7],尤其是对于跨多个机器人的扩展。
模拟学习 (IL) 是一种引人注目的替代方案,因为它可以使用现有的专家演示和西席战略。尽管 IL 具有直观的吸引力,但它可能会受到协变量漂移 [8] 的影响,即战略会碰到演示期间未见过的分布外状态。虽然机器学习架构 [9]–[11] 和数据加强技术 [12] 的进步有助于缓解这些题目,但添加更多特定于机器人的因素会增加数据要求和练习复杂性。为复杂模态(例如人形机器人)天生高质量的演示会使纯 IL 方法更加复杂。
强化学习 (RL) [13] 提供了另一种获得特定具身战略的标准途径,尤其是对于运动等任务。然而,导航 RL 仍旧受到自然情况中大搜索空间和希罕奖励的限制。残差 RL [14]、[15] 通过以数据驱动的方式改进预练习战略来解决这些题目,从而实现更快的收敛和更高的稳固性。与此同时,新兴的视觉语言动作 (VLA) [1]、[3]、[16]、[17] 模子已显示出跨平台任务的前景,但通常通过低维基于航点的动作空间或开环规划阶段进行操作,这使得它们对于具有高维动态的平台服从较低。
本文提出一个三阶段工作流程,旨在构建强大的跨具身移动战略。起首,通过 IL 练习一个基本战略,该战略从移动机器人上的西席演示中捕获一般移动先验。接下来,通过残差 RL 将此基本战略细化为具身专家。最后,战略蒸馏将这些专家组合成适合多平台摆设的单一模子。如图所示 COMPASS 工作流的高层概述:(1)IL;(2)具身专家的残差 RL;(3)跨具身蒸馏。

假设目标是跨不同机器人实现点对点移动的任务,每个机器人都具有独特的运动学和动力学特征。在时间步 t,让机器人观察状态定义为
x_t = (I_t, v_t, g_t, e),
其中 I_t 是当前相机输入(RGB 图像),v_t 是测量的速度,g_t 提供路线或目标相关信息(例如,机器人框架中的目标位置),e 是指定机器人形态的实现嵌入。虽然 e 在一次事件中对于单个机器人保持稳定,但它在不同的实现中有所不同。
目标是学习一个战略 π_θ,将 x_t 映射到速度命令 a_t = (v_t , ω_t ),然后由低级控制器使用该战略进行关节级驱动。情况的过渡动态 p(x_t+1 | x_t , a_t ) 取决于机器人的实现和场景中的外部因素。定义一个奖励函数 R(·),鼓励高效、无碰撞地实现目标。目标是最大化预期扣头回报。
挑战在于设计一个使用具身嵌入 e 的单一战略,允许共享知识但又能顺应不同的形态束缚。
第一步:移动先验的 IL

第一步是使用 IL 获取一个通用移动性基线。依靠现成的西席战略(通常是经典的移动栈)来处理标准移动机器人,这些战略通常提供可靠的演示。

  • 潜状态建模:引入潜状态 s_t 来捕捉情况动态。让 o_t = (I_t, v_t) 表示原始观测值,包括 RGB 图像和机器人速度。
    在此目标是学习一个可以预测这个潜空间转换的世界模子,包括基于动作的潜状态更新和观测的预测或重建。练习就是基于专家演示,最小化重建或预测的偏差/损失。
2)潜空间中的战略学习:学习潜转换后,接着练习战略π_θ^IL,该战略采用战略状态p_t(融合潜状态s_t和路线嵌入 r_t)来预测动作 a_t。
练习中,只管减少战略输出和西席动作之间的动作差异。如许产生了基于 IL 的移动先验。世界模子通过预测未来的观察和潜转换,资助战略泛化到分布外的状态,从而为决议提供强大的编码表征。

  • X-Mobility:使用 X-Mobility [6] (可泛化导航)作为基础战略,该战略将自回归世界模子(如图所示)与速度预测战略模子相联合。学习到的潜状态 s_t 封装情况动态和束缚,而战略头将此状态与路线信息相联合以天生速度命令。X-Mobility 强大的泛化性能,表明其学习的表示可轻松顺应不同的具身。
第二步:微调专家模子的 RL

通过 IL 练习出一个有前途的通用移动战略后,通过残差 RL 对其进行改进,以满意特定于具身的需求。此阶段解决机器人特定的运动学、传感器配置以及基本 IL 战略可能无法完全捕获的其他束缚。

  • 残差战略设置:让 a_t^base = π_θ^base(p_t) 成为来自 IL 基线的操作。引入一个残差战略 π_φres,它采用 p_t 并输出 a_res。最终操作是 a_t =a_tbase+a_tres。π_φres 的作用是使基本战略顺应特定具身特征的细微差异。
  • 奖励设计:定义一个奖励函数 R 来促进安全高效的移动,它由以下部门构成:
    进度:与目标的距离减少成正比的正奖励。
    制止碰撞:碰撞或跌倒的惩罚。
    完成目标:到达目的地时获得大量正奖励。
    采用这种简单的公式来促进练习,同时承认更复杂的奖励塑造可能会产生更好的性能。
  • 练习循环:对残差战略 π_φ^res 采用基于 PPO 的 RL 优化器 [18]。如图所示,每次练习迭代按如下方式进行:


  • 智体吸收当前状态 x_t,通过世界模子对其进行处理以形成战略状态 p_t,然后从 IL 战略天生基本动作 a_tbase,从残差网络天生残差动作 a_t^res。
  • 组合动作 a_t 通过特定具身的联合控制器在模拟情况中实行。
  • 智体观察下一个状态 x_t+1 和与转换相关的奖励 R。
  • 残差战略 π_φ^res 通过基于梯度的方法更新,而 IL 战略 π_θ^base 保持冻结。
    假如机器人到达目的地、与停滞物相撞或超时,情况将重置。 收到重置信号后,世界模子中的历史状态也会被扫除。
  • 残差战略网络架构:残差战略网络采用与 IL 战略相同的世界模子。 从 IL 动作战略中复制权重,并仅重新初始化最终输出层以学习残差组件。 该战略可确保稳固的练习,并将残差学习重点放在补充特定具身的性能差距上。 对于评论家网络,采用标准多层感知器 (MLP),以相同的战略状态作为输入。
通过构建强大的预练习基础战略,残差 RL 框架减轻典型的希罕采样挑战,从而使每个特定具身可以或许更快地收敛到高性能战略。
第三步:战略蒸馏以联合专家

在为每个机器人具身单独练习残差 RL 专家后,将它们归并为一个多具身战略。此“提炼”战略捕获所有专家战略的团体知识,同时使用具身嵌入来跨不同机器人平台进行泛化。

  • 从专家处收集数据:在残差 RL 练习之后,记载每个专家的输入和输出分布,包括:
    来自世界模子的战略状态。
    one-hot 具身标识符 e。
    PPO 中使用的高斯动作分布均值和方差。
这个记载的数据集构成蒸馏的基础。

  • 蒸馏方法:让 π_φ^(i) 表示第 i 个具身的专家战略。每个专家都会对动作产生一个正态分布 N (μ^(i)§, σ^2)。在给定 p 和具身嵌入 e 的情况下,定义一个蒸馏战略 π_θ^dist,输出 μ_θ (p,e)。为了匹配专家的分布,最小化 KL 散度。
  • 具身嵌入:战略蒸馏的一个关键构成部门是具身嵌入 e,它捕获每个具身的形态和动态特征。在最简单的版本中,使用长度为 N 的 one-hot 编码向量,其中 N 表示机器人具身的数目。该向量中的每个位置都对应一个特定的机器人。当 N 较小且机器人差异很大时,这种直接的方法非常有效。预计通过在嵌入空间内进行插值,可学习的嵌入可以更好地泛化到新的、未见过的具身。
  • 蒸馏战略网络架构:蒸馏战略保留相同的潜处理流水线,但在天生最终动作分布之前,还对具身进行条件限制(如图所示)。该网络由用于均值预测的 MLP 和全局方差参数构成,从而产生一个单一战略,该战略在所有思量的机器人类型中实现近乎专家的性能。

因此,该三步框架——模拟学习、残差强化学习和战略蒸馏——弥合通用移动知识和高度专业化具身束缚之间的差距,产生统一的跨具身移动战略。
练习细节


  • IL 基础战略:对于初始 IL 阶段,用在 Carter 数据集上预练习的 X-Mobility 查抄点。冻结此查抄点,然后将其用作后续 RL 细化的基础网络。
  • 残差 RL:使用 Nvidia Isaac Lab [19] 在并行化的视觉 RL 情况中练习战略,从而实现高效的数据收集和快速的练习更新。
为了制止过拟归并保持基础战略跨情况泛化的能力,构建一组多样化的练习场景(如图所示),以顺应四种不同的机器人具身:Nova Carter(轮式)、Unitree H1(人形机器人)、Unitree G1(人形机器人)和 Spot Mini(四足机器人)。对于人形机器人和四足机器人,采用在 Isaac Lab 内练习的基于 RL 运动战略,将速度命令映射到关节级控制。由于 Isaac Lab 对轮子物理的支持有限,Nova Carter 改用自定义控制器,根据速度命令直接调解机器人的根状态。

每个具身都在统一的情况中进行练习,该情况随机初始化智体的姿势和目标位置,其中目标距离从机器人的起始位置匀称采样 2m 到 5m 之间。机器人和目标之间的直线作为简化的路线,在摄像机的视野范围内提供短距离引导。每个 episode 跨越最多 256 个时间步长,假如智体发生碰撞、达到目标或超过最大 episode 长度,则会重置。用 2 个 Nvidia L40 GPU 并行练习每个具身专家 1,000 episodes,64 个情况,但 Carter 除外,它只练习 300 episodes 以减轻过拟合。减少 Carter 的练习规划是必要的,因为 X-Mobility 已经在 Carter 数据集上进行练习,假如进行大量微调,它很轻易过拟合。

  • 战略蒸馏:为了将学习的专家蒸馏成一个统一的战略,使用与残差强化学习练习相同的情况为每个具身记载 320 条轨迹。每条轨迹跨越 128 步,每个具身产生约 40k 帧。然后,使用 4 个 Nvidia H100 GPU 通过对齐每个专家的输出分布来实行战略蒸馏。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王國慶

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表