IT评测·应用市场-qidao123.com
标题:
π₀:基于VLM的多任务具身操作底子模型
[打印本页]
作者:
天空闲话
时间:
2025-1-1 08:11
标题:
π₀:基于VLM的多任务具身操作底子模型
π₀官方网址
OpenVLA解读
OCTO解读
摘要
π₀是基于一种新颖的流匹配架构,该架构建立在预练习的视觉语言模型(VLM)之上。这种方法使模型能够继续互联网规模的语义知识,并有效地实验复杂和高度机动的机器人控制任务。该方法的关键组成部门包括:
预练习的视觉语言模型(VLM):
模型使用预练习的VLM主干,使用从大规模数据中得到的广泛知识、语义推理和问题办理能力。
流匹配:
该架构接纳流匹配(diffusion的一种变体),以表示复杂的一连动作分布。这使得模型能够天生高频率的动作块(高达50 Hz),实用于灵巧的操作任务。
跨本体练习:
模型在一个大型多样化的数据集上进行练习,该数据集包括来自多种机器人平台(单臂、双臂和移动操控器)和各种灵巧任务的数据。这种跨体现练习帮助模型在差别的机器人配置之间进行泛化。
动作专家:模型中集成了一个动作专家,通过流匹配天生一连动作,增强了模型实验准确和流畅操作技能的能力。
预练习和后练习阶段:
练习过程分为预练习和后练习两个阶段,预练习阶段在多样化的数据集上进行,以获取广泛的能力,后练习阶段则在高质量、特定任务的数据上进行微调,以提高模型在复杂任务上的表现。
总体而言,π₀政策联合了这些元素,创建了一个通用的机器人政策,能够实验多种任务,如折叠衣物、整理桌子和组装盒子,具有高度的机动性和适应性。
基于VLA流匹配模型的机器人底子模型,接纳两阶段进行练习
底子模型是一个约3B的多模态大模型(PaliGemma),其接纳ViT对图像进行编码,接纳SigLIP对文本进行编码,从一个预练习的 VLM (PaliGemma)的底子上继续练习,然后额外针对差别的 embodiment 使用差别的 action expert 以预测相应的动作。模型图片使用三个视角(左臂、右臂和第三人称),如果没有就 mask 掉。动作空间用了并集 18 维,如果没有就添补 0。
预练习阶段
VLM的初始权重来自于练习好的PaliGemma模型,在该预练习阶段,使用一个多样化的数据集进行练习,以获取广泛的能力和一般化能力,该数据集包含来自7种差别机器人和68个任务的灵巧操作数据,包括106M步的单臂数据和797M的双臂数据。此外,还联合了来自开放源代码数据集(如OXE、DROID和Bridge)的数据。
后练习(微调)阶段
在后练习阶段,模型使用高质量、特定任务的数据进行微调,以提高其在复杂任务上的表现。
Π0预练习的底子模型评测实验
π₀:
在预练习的VLM上继续预练习700k步;
π₀(parity):
在预练习的VLM上继续预练习160k步;
π₀-small:
VLM未经网络数据的预练习,模型参数更小;
OpenVLA:
在混合数据上练习160k步
OpenVLA(UR5e only):
仅在部署用的机械臂UR5e上练习
Octo:
在混合数据上练习320k步
结论:即使是π₀-small,也远优于前SOTA模型
微调后的语言指令跟随实验
flat
是直接把大任务指令(比如把“垃圾装进袋子里”)给它;
human
是人为给定一步步的指令;
HL
指的是用 VLM 拆分成小指令
结论:模型π₀在实验语言指令方面表现出显着的提拔,尤其是在接收来自人类专家的中心指令和高层次VLM策略提供的指令时。这表明,VLM的预练习对提高模型明白和实验复杂指令的能力至关紧张。
使用微调学习全新更灵巧的技能
评估我们的模型在与预练习数据有显着差别的新任务上的表现,这些任务须要全新的举动。对于这些评估,我们在每个新任务上使用差别数目标数据对模型进行微调。只管每个任务都是新的,我们将这些任务根据与预练习数据中任务的差别程度分为“层级”。
测试方法:
实验10次,测试成功率;
结论:Π0可以更好地在较少数据下进行学习,预练习模型往往比从零开始练习的模型取得更大的提拔。
学习复杂多阶段任务
我们通过微调和语言联合的方式来应对一系列具有挑衅性的多阶段任务。对于此中一些任务,预练习中存在相关数据,但须要微调才能达到精通程度。对于另一些任务,预练习中没有相关数据。这些任务包括:叠衣服(预练习包含)、转移衣物(预练习包含)、折叠包装(预练习不包含)、放鸡蛋(预练习不包含)、将物品放入包装盒(预练习不包含)。
π₀ ≈ octo + openvla?
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4