最近的研究表明,大型语言模型(llms)可以应用于将自然语言应用于各种各样的机器人技能。然而,在实践中,学习多任务、语言条件机器人技能通常需要大规模的数据收集和频繁的人为干预来重置情况或帮助纠正当前的policies。在这项工作中,我们提出了一种新的方法,通过利用自我监视的视觉语言启示 visuo-lingual affordance模型,从现实世界中的非布局化、离线和无重置数据中有效地学习通用语言条件机器人技能,该模型只需要用语言表明总数据的1%。我们在模仿和现实世界的机器人任务中举行了广泛的实行,评估了我们的方法,在具有挑战性的calvin基准上实现了最先进的性能,并在现实世界中使用单个policy学习了25个不同的视觉运动操作任务。我们发现,当与llm团结使用,通过少镜头提示将抽象的自然语言指令分解为子目标时,我们的方法可以或许在现实世界中完成长时间、多层的任务,同时需要的数据比以前的方法少一个数量级。代码和视频可在http://hulc2.cs.uni-freiburg.de.
I. INTRODUCTION
图1:当与大型语言模型配对时,hulc++可以或许从现实世界中的抽象自然语言指令中完成长期、多层任务,例如“整理工作空间”,而无需额外培训。我们利用视觉启示模型将机器人引导到语言所指的可操作地区附近。一旦进入这个地区,我们就会切换到一个7-dof语言条件视觉运动器policy,它是从离线、非布局化数据中练习出来的。
具体来说,我们提出了分层通用语言条件策略 Hierarchical Universal Language Conditioned Policies 2.0(hulc++),这是一个分层语言条件agent,它将hulc[10]的任务无关控制与vapo[13]的以对象为中心的语义理解相团结。hulc是一个state-of-the-art语言条件模仿学习agent,它学习7-dof目标,端到端到达policies。然而,为了共同砚习语言、视觉和控制,它需要大量的机器人交互数据,类似于其他端到端agents[4]、[9]、[15]。vapo提取了非布局化数据的自监视视觉启示模型,不仅加速了学习,而且还被证明可以进步卑鄙控制policies的泛化能力。我们证明,通过扩展vapo来学习语言条件启示,并将其与基于hulc的7-dof低级policy相团结,我们的方法可以或许直接从图像中一连跟踪多个长期操作任务,同时需要的数据比以前的方法少一个数量级。与之前的工作不同,之前的工作依靠于昂贵的专家演示和完全表明的数据集来学习现实世界中的语言条件agents,我们的方法利用了一种更具可扩展性的数据收集方案:非布局化、无重置且可能次优的长途操作游戏数据[16]。此外,我们的方法只需要用语言表明总数据的1%。大量实行表明,当与将抽象自然语言指令翻译成一系列子目标的llm配对时,hulc++可以在现实世界中完成长时间、多阶段的自然语言指令。最后,我们表明,我们的模型在具有挑战性的calvin基准[8]上设定了一个新的技术程度,通过7自由度控制,从高维感知观察中一连跟踪多个长期利用任务,并通过自然语言指定。据我们所知,我们的方法是第一个明白旨在从现实世界中纯粹离线、无重置和非布局化数据中办理语言条件的longhorizon、多层任务的方法,同时只需要1%的语言表明。
II. RELATED WORK
由于启示预测以语言为条件,每次agent收到新指令时,我们的agent都会根据α(s,l)决定使用哪个policy。将无模型policy运动的地区限定在提供人机交互的地区附近具有使其更具采样效率的优点,因为它只需要学习局部举动。
A. Extracting Human Affordances from Unstructured Data
图4:将抽象指令分解为子任务序列的示例提示。提示上下文为灰色,输入任务下令为洋赤色,生成的输出突出显示。
IV. EXPERIMENTS
我们的实行旨在答复以下题目:
1)与使用端到端模型相比,集成所提出的视觉语言启示模型是否可以进步以下语言指令的性能和数据效率?
2) 所提出的方法是否适用于现实世界?
3) 当与llm配对时,agent能否通过遵循llm提出的子目标来推广新的举动?
A. Simulation Experiments
Evaluation Protocol.
我们使用calvin基准[8]的情况d设计我们的实行,该情况由6小时的长途操作无定向游戏数据组成,这些数据可能包含次优举动。为了模仿现实世界的场景,只有1%的数据包含众包语言表明。calvin中agent的目标是使用机载传感,通过自然语言指示5个不同的子任务,办理多达1000个独特的序列链。在推理过程中,只有当agent成功完成当前子任务时,它才会吸收链中的下一个子任务。
Results and Ablations.
为了研究我们提出的方法的数据效率,我们还将我们的模型与包含50%和25%总游戏数据的较小数据分割举行了比较。我们的结果表明,我们的方法比基线的样本效率高出50%。由于可能很难判定每个模块对团体样本效率进步的贡献程度,我们研究了将我们在25%数据上练习的启示模型与在完备数据集上练习的低级policy配对的结果。我们报告的差异很小,均匀序列长度为2.92。
B. Real-Robot Experiments
最后,我们通过利用gpt-3为抽象语言输入生成子目标序列,例如“整理工作区并关灯”,来评估每种方法在现实世界中可以一连执行多少任务。我们报告说,我们的方法均匀执行了6.4个子目标,而基线在完成2到3个子目标后每每会失败。请参阅增补视频,相识定性结果,这些结果展示了任务的多样性和不同方法的longhorizon能力。总体而言,我们的结果证明白我们的方法通过利用视觉语言启示从非布局化数据中学习样本高效、语言条件化的policies的有效性。
V. CONCLUSION AND LIMITATIONS