守听 发表于 前天 05:04

论文速报《Being-0:联合视觉语言模型与模块化技能的人形机器人智能体》

论文链接:https://arxiv.org/pdf/2503.12533
项目主页:https://beingbeyond.github.io/being-0/?utm_source=catalyzex.com
0. 简介

人形机器人被以为是实现具身人工智能的抱负载体,因其可以像人类一样与实际天下进行物理交互。构建能够在复杂环境中执行多样化使命的自主人形机器人,不停是人工智能与机器人领域的终极目的。
比年来,随着大型语言模型、视觉语言模型等基础模型的迅猛发展,以及机器人底层控制技术的不停进步,人形机器人的高级认知本领和低级活动技能都取得了显著突破。然而,怎样有效地将这些技术整合起来,构建一个统一的、能够在真实天下中执行复杂使命的人形机器人智能体系统,仍然面临诸多挑衅。
来自北京大学、北京智源人工智能研究院和BeingBeyond的研究团队最近提出了Being-0,这是一个专为人形机器人计划的分层智能体框架。Being-0奇妙地将基础模型(FM)的高级认知本领与模块化机器人技能库联合起来,并通过创新的毗连器模块办理了二者之间的协调标题,使人形机器人能够高效地执行复杂的长周期使命。
https://i-blog.csdnimg.cn/direct/55abda06f45149fa806aa8d82fd6a2dd.png
1. 主要贡献

Being-0的主要贡献可以总结为以下几点:

[*] 分层智能体架构:提出了一个专为人形机器人计划的三层架构,包罗基础模型层、毗连器层和技能库层,实现了从高级语言指令到低级机器人控制的端到端映射。
[*] 模块化技能库:开辟了一套丰富的模块化技能库,分离了下半身活动控制和上半身操作控制,分别办理稳定导航和精确操作的标题。
[*] 创新的毗连器模块:引入了由轻量级视觉语言模型(VLM)驱动的毗连器,办理了基础模型在空间理解、及时反应和技能协调方面的局限性。
[*] 及时高效部署:除了基础模型外,Being-0的全部组件都可以在低成本的机载计算设备上运行,实现了在全尺寸人形机器人上的及时性能。
[*] 真实天下验证:在复杂的室内环境中进行了广泛的实验,证实了Being-0在执行包含导航和风雅操作的长周期使命中的有效性。
3. 相关工作

3.1 基础模型在机器人领域的应用

比年来,大型语言模型和视觉语言模型在机器人研究中得到了广泛应用。Ahn等人(2022)和Chen等人(2024)的研究表明,基础模型可以有效地进行技能规划;Huang等人(2022)则探索了基础模型在乐成检测方面的应用。这些研究主要会合在机器臂、轮式机器人和四足机器人上,但将这些技术应用于人形机器人时面临着更多挑衅。
Firoozi(2023)和Hu(2023)的工作将基础模型与基于学习的机器人技能相联合,展示了这种方法在简单环境下的有效性。Wang等人(2024)和Tan等人(2024)则进一步探索了通用智能体框架,如Cradle,这些框架能够在开放天下游戏和软件开辟中展示出强盛的本领。Being-0受到了Cradle框架的启发,但针对人形机器人的独特需求进行了重新计划。
3.2 人形机器人的活动和操控技能研究

在人形机器人控制方面,传统研究每每采用全身控制的方法,即同时控制腿部活动和手臂操控。Fu等人(2024a)和He等人(2024a)的工作就属于这一种别。然而,这种方法在实现精确操控、稳定活动和模仿到实际的部署方面面临巨大挑衅。
近期的研究开始转向将下半身活动和上半身操控分开处理的方法。Kim(2024)和Cheng(2024b)的工作证实了在保持下肢固定的环境下,可以得到丰富的上肢操控技能。这种分离计谋大大简化了技能获取的复杂性,并进步了模仿到实际部署的乐成率。
3.3 视觉语言模型在机器人领域的应用

视觉语言模型(VLM)在毗连视觉感知和语言指令方面展示出了极大的潜力。Cheng等人(2024c)提出的VideoLLaMA2模型能够理解视频内容并生成相应的语言描述。这类模型为机器人提供了理解复杂视觉场景和执行语言指令的本领。
在机器人导航领域,传统方法通常依赖预先构建的舆图或专门针对特定环境的训练。而基于视觉语言模型的方法则允许机器人通过语言指令直接导航到指定目的,大大进步了系统的机动性和适应性。
3. 焦点算法

https://i-blog.csdnimg.cn/direct/d7618cb17bf84da1a2998fd95447d6b9.png
3.1 模块化技能库

Being-0的模块化技能库分为两大部分:基于操纵杆指令的稳定活动和基于遥操作的操控技能。
基于操纵杆指令的稳定活动:
这部分负责控制人形机器人的下肢关节,使其能够在各个方向上安全导航,并在操控使命中保持稳定站立。研究团队采用强化学习(RL)方法在模仿环境中训练了一个目的条件化的本体感受计谋:
                                       π                            L                            (                                       a                               l                                    ∣                                       q                               l                                    ,                                       q                               u                                    ,                                       q                               .                                    ,                            ω                            ;                                       v                               g                                    )                                  πL(a^l | q^l, q^u, q^., ω; v^g)                     πL(al∣ql,qu,q.,ω;vg)
此中                                             v                            g                                       v^g                  vg表示操纵杆速度指令。通过在模仿中引入域随机化和外力干扰,该计谋能够在真实天下中以50Hz的控制频率运行,使机器人能够根据操纵杆指令平稳行走并保持平衡。
详细地,技能库中包含以下活动技能:无动作、直行、后退、左转、右转、左闪、右闪、倾斜头部、转动头部。这些基本技能为机器人在复杂环境中的导航提供了基础。
获取操控技能:
为了获取丰富的操控技能,研究团队利用Apple VisionPro进行遥操作,并联合模仿学习方法。详细流程如下:

[*]双目RGB图像被投射到VisionPro上,操作者通过VR设备控制机器人
[*]系统捕捉人体头部、手腕和手指的活动,并以10Hz的频率映射到机器人动作上
[*]记录遥操作轨迹,包罗观测和动作序列
[*]利用ACT(一种基于Transformer的行为克隆方法)训练每个操作技能的计谋
[*]将训练好的技能与语言描述(如"抓取瓶子")关联起来
这种方法大大低落了获取新技能的成本,通常只需50-150条轨迹数据,遥操作时间不到1小时。
3.2 基础模型的应用与局限

Being-0利用GPT-4o作为基础模型(FM),负责高级认知使命。给定一条指令l和图像观测                                             o                            l                                       o^l                  ol,FM执行三项关键决策功能:

[*]推理:生成对图像和指令的描述,帮助理解使命及当前执行阶段
[*]检测:评估最近执行的技能是否乐成,辨认失败和非常环境
[*]规划:根据推理和检测结果,从技能库中选择下一个要执行的技能
然而,将FM直接与技能库集成时,研究团队发现了几个严重标题:

[*]人形机器人的双足活动存在固有的不稳定性,需要频繁调整导航命令
[*]FM难以正确理解3D场景,导致导航目的方向和深度估计错误
[*]乐成导航到目的后,机器人的姿态大概不得当后续操作
[*]FM的推理速度较慢,低落了系统服从
https://i-blog.csdnimg.cn/direct/74fbd561e49b4fc797bd63e6f2737a9d.png
3.3 毗连器模块

为了办理上述标题,Being-0引入了创新的毗连器模块,充当FM和技能库之间的中间层。毗连器的焦点是一个轻量级的视觉语言模型(VLM),专门针对具身导航和操作使命进行优化。
VLM的训练:
研究团队基于第一人称导航图像数据集训练了VLM,这些图像带有语言描述、技能、目的标签和边框的解释。模型利用VideoLLaMA2作为骨干网络,通过多使命学习进行优化,包罗图像描述、技能预测和物体检测使命。
训练后的VLM在机载设备上的均匀推理时间约为1秒,远快于GPT-4o在云服务上的延迟,为及时决策提供了大概。
落地的技能规划:
VLM的主要功能是将FM基于语言的高级规划转化为可执行的详细技能命令。比方:


[*]当FM生成"抓取杯子"的规划,但机器人距离桌子较远时,VLM会剖析这是长期目的,首先输出"移动到桌子"的导航技能
[*]当FM规划"找一张桌子",但机器人已经在桌子旁时,VLM会向FM发出乐成信号
这种技能规划的落地本领确保了指令执行的连贯性和有效性。
联合活动技能的视觉导航:
毗连器模块利用VLM的视觉理解和物体检测功能进行高效导航。当目的物体在视野内时,系统利用检测到的边框和双目深度信息估计其相对位置,并选择得当的活动技能朝该方向移动。当目的不在视野内时,则触发探索程序。
通过联合VLM的快速推理和模块化活动技能,Being-0实现了人形机器人在动态环境中的高效导航。
协调导航和操作:
为了办理导航停止位置大概不得当后续操作的标题,研究团队提出了基于VLM的姿态调整方法。在导航过程中,VLM不仅预测物体的位置,还预测机器人相对于物体的最佳对齐方向。
如果当前朝向与抱负方向有偏差,VLM会触发联合头部旋转和进步活动的复合技能,使机器人沿弧形路径接近目的,达到最佳操作位置。这种协调机制显著进步了后续操作使命的乐成率。
4. 实验

4.1 实验设置

研究团队在Unitree H1-2人形机器人上部署了Being-0系统。该机器人配备了:


[*]两个Inspire机器手用于操控
[*]两个Dynamixel电机驱动颈部活动
[*]一个ZED-mini摄像头提供双目视觉
[*]NVIDIA Jetson AGX板载计算设备
https://i-blog.csdnimg.cn/direct/5e69122c956347e09bac341e1a0374fc.png
实验环境是一个20×20米的大型办公场景,包含办公隔间、木桌、咖啡机以及走廊等办法。这种复杂环境为评估系统的导航和使命执行本领提供了极具挑衅性的场景。
4.2 使命计划

实验使命分为两大类:

[*]取瓶和送篮使命:要求机器人导航至远处的木桌并执行操作使命
[*]咖啡相关使命:包罗预备咖啡、冲泡咖啡和送咖啡,由多个子使命构成,需要精确的操作技能
这些使命都是长周期使命,需要机器人在导航和操作之间无缝切换,对系统的稳定性和协调本领提出了高要求。
4.3 实验结果

研究团队比力了完整的Being-0系统与去除毗连器模块的基线系统。实验结果显示:

[*] 完整Being-0:

[*]导航更加精确,能够到达得当后续操作的位置
[*]使命执行速度更快,均匀完成时间镌汰30%以上
[*]使命乐成率显著进步,尤其在包含风雅操作的使命中

[*] 无毗连器版本:

[*]导航不精确,经常需要多次尝试才能接近目的
[*]导航停止位置常常不得当后续操作
[*]在复杂使命中失败率高

实验证实了毗连器模块在弥合高级认知和低级控制之间差距方面的关键作用,以及轻量级VLM在提供及时决策支持方面的价值。
5. 结论

Being-0框架通过创新的三层架构乐成办理了人形机器人自主执行复杂使命的挑衅。该框架奇妙地联合了基础模型的高级认知本领、轻量级VLM的及时决策支持,以及模块化技能库的可靠执行本领。
毗连器模块作为Being-0的焦点创新,有效地弥合了高级语言规划与低级活动控制之间的差距,办理了人形机器人在执行长周期使命时面临的特殊挑衅。通过引入专门训练的轻量级VLM,Being-0实现了在常规硬件上的及时性能,使人形机器人能够在复杂环境中执行多样化使命。
Being-0的乐成标志着人形机器人智能体研究的紧张进展,为未来更加智能、自主的人形机器人系统开辟了新的方向。随着技能库的不停扩展和毗连器模块的进一步优化,我们可以期待Being-0及雷同系统在更广泛的实际应用场景中发挥作用。
6. 参考链接

https://blog.csdn.net/yorkhunter/article/details/147168814
https://mp.weixin.qq.com/s/cMLyUvLWaPDqGPOCnvE6pg

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 论文速报《Being-0:联合视觉语言模型与模块化技能的人形机器人智能体》