IT评测·应用市场-qidao123.com技术社区

标题: COMPASS:通过残差强化学习和技能合成实现跨具身移动战略 [打印本页]

作者: 王國慶    时间: 2025-3-29 12:37
标题: COMPASS:通过残差强化学习和技能合成实现跨具身移动战略
25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。
随着机器人越来越多地摆设在不同的应用领域,可泛化的跨具身移动战略变得越来越重要。虽然经典的移动栈已被证着实特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模拟学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变量漂移、大情况中的希罕采样和具身特定束缚的影响。
COMPASS,是一种通过集成 IL、残差 RL 和战略蒸馏来开发跨具身移动战略的工作流程。从移动机器人上的 IL 开始,使用易于访问的西席战略来练习将世界模子与移动战略相联合的基础模子。在此基础上,用残差 RL 来微调具身特定战略,使用预练习的表示来提高处理各种物理束缚和传感器模式的采样服从。最后,战略蒸馏将这些具身专家战略归并为一个强大的跨具身战略。
实证研究证实,COMPASS 可有效扩展到各种机器人平台,同时保持对各种情况配置的顺应性,实现一个通才战略,成功率比预练习的 IL 战略高出约 5 倍。由此产生的框架为跨实体移动性提供高效、可扩展的解决方案,使具有不同设计的机器人可以或许在复杂场景中安全高效地导航。
机器人技术在工业和日常生存中都取得重大进展,推动对协作机器人处理日益复杂任务的需求。然而,由于不同机器人平台在形态特征、运动学和传感器配置方面存在很多差异,开发强大的跨实体移动战略仍旧具有挑战性 [1]–[3]。这些差异使得创建一种在实际情况中既强大又顺应性强的一个普遍战略变得复杂。
经典移动栈 [4]、[5] 在特定机器人(尤其是轮式平台)上表现出色,但在移植到具有不同传感器套件和物理束缚的新实体时,通常需要进行大量重新调解或重新开发。这种对每个机器人优化的依赖,引起人们对端到端学习方法的兴趣 [6]、[7],尤其是对于跨多个机器人的扩展。
模拟学习 (IL) 是一种引人注目的替代方案,因为它可以使用现有的专家演示和西席战略。尽管 IL 具有直观的吸引力,但它可能会受到协变量漂移 [8] 的影响,即战略会碰到演示期间未见过的分布外状态。虽然机器学习架构 [9]–[11] 和数据加强技术 [12] 的进步有助于缓解这些题目,但添加更多特定于机器人的因素会增加数据要求和练习复杂性。为复杂模态(例如人形机器人)天生高质量的演示会使纯 IL 方法更加复杂。
强化学习 (RL) [13] 提供了另一种获得特定具身战略的标准途径,尤其是对于运动等任务。然而,导航 RL 仍旧受到自然情况中大搜索空间和希罕奖励的限制。残差 RL [14]、[15] 通过以数据驱动的方式改进预练习战略来解决这些题目,从而实现更快的收敛和更高的稳固性。与此同时,新兴的视觉语言动作 (VLA) [1]、[3]、[16]、[17] 模子已显示出跨平台任务的前景,但通常通过低维基于航点的动作空间或开环规划阶段进行操作,这使得它们对于具有高维动态的平台服从较低。
本文提出一个三阶段工作流程,旨在构建强大的跨具身移动战略。起首,通过 IL 练习一个基本战略,该战略从移动机器人上的西席演示中捕获一般移动先验。接下来,通过残差 RL 将此基本战略细化为具身专家。最后,战略蒸馏将这些专家组合成适合多平台摆设的单一模子。如图所示 COMPASS 工作流的高层概述:(1)IL;(2)具身专家的残差 RL;(3)跨具身蒸馏。

假设目标是跨不同机器人实现点对点移动的任务,每个机器人都具有独特的运动学和动力学特征。在时间步 t,让机器人观察状态定义为
x_t = (I_t, v_t, g_t, e),
其中 I_t 是当前相机输入(RGB 图像),v_t 是测量的速度,g_t 提供路线或目标相关信息(例如,机器人框架中的目标位置),e 是指定机器人形态的实现嵌入。虽然 e 在一次事件中对于单个机器人保持稳定,但它在不同的实现中有所不同。
目标是学习一个战略 π_θ,将 x_t 映射到速度命令 a_t = (v_t , ω_t ),然后由低级控制器使用该战略进行关节级驱动。情况的过渡动态 p(x_t+1 | x_t , a_t ) 取决于机器人的实现和场景中的外部因素。定义一个奖励函数 R(·),鼓励高效、无碰撞地实现目标。目标是最大化预期扣头回报。
挑战在于设计一个使用具身嵌入 e 的单一战略,允许共享知识但又能顺应不同的形态束缚。
第一步:移动先验的 IL

第一步是使用 IL 获取一个通用移动性基线。依靠现成的西席战略(通常是经典的移动栈)来处理标准移动机器人,这些战略通常提供可靠的演示。
2)潜空间中的战略学习:学习潜转换后,接着练习战略π_θ^IL,该战略采用战略状态p_t(融合潜状态s_t和路线嵌入 r_t)来预测动作 a_t。
练习中,只管减少战略输出和西席动作之间的动作差异。如许产生了基于 IL 的移动先验。世界模子通过预测未来的观察和潜转换,资助战略泛化到分布外的状态,从而为决议提供强大的编码表征。
第二步:微调专家模子的 RL

通过 IL 练习出一个有前途的通用移动战略后,通过残差 RL 对其进行改进,以满意特定于具身的需求。此阶段解决机器人特定的运动学、传感器配置以及基本 IL 战略可能无法完全捕获的其他束缚。

通过构建强大的预练习基础战略,残差 RL 框架减轻典型的希罕采样挑战,从而使每个特定具身可以或许更快地收敛到高性能战略。
第三步:战略蒸馏以联合专家

在为每个机器人具身单独练习残差 RL 专家后,将它们归并为一个多具身战略。此“提炼”战略捕获所有专家战略的团体知识,同时使用具身嵌入来跨不同机器人平台进行泛化。
这个记载的数据集构成蒸馏的基础。

因此,该三步框架——模拟学习、残差强化学习和战略蒸馏——弥合通用移动知识和高度专业化具身束缚之间的差距,产生统一的跨具身移动战略。
练习细节

为了制止过拟归并保持基础战略跨情况泛化的能力,构建一组多样化的练习场景(如图所示),以顺应四种不同的机器人具身:Nova Carter(轮式)、Unitree H1(人形机器人)、Unitree G1(人形机器人)和 Spot Mini(四足机器人)。对于人形机器人和四足机器人,采用在 Isaac Lab 内练习的基于 RL 运动战略,将速度命令映射到关节级控制。由于 Isaac Lab 对轮子物理的支持有限,Nova Carter 改用自定义控制器,根据速度命令直接调解机器人的根状态。

每个具身都在统一的情况中进行练习,该情况随机初始化智体的姿势和目标位置,其中目标距离从机器人的起始位置匀称采样 2m 到 5m 之间。机器人和目标之间的直线作为简化的路线,在摄像机的视野范围内提供短距离引导。每个 episode 跨越最多 256 个时间步长,假如智体发生碰撞、达到目标或超过最大 episode 长度,则会重置。用 2 个 Nvidia L40 GPU 并行练习每个具身专家 1,000 episodes,64 个情况,但 Carter 除外,它只练习 300 episodes 以减轻过拟合。减少 Carter 的练习规划是必要的,因为 X-Mobility 已经在 Carter 数据集上进行练习,假如进行大量微调,它很轻易过拟合。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4