Figure AI 公司和Figure 02呆板人技术深入挖掘(呆板人架构)
系列文章目录Figure AI 公司和Figure 02呆板人技术深入挖掘(公司先容)
1、概述
Figure-02 举行了“彻底的硬件和软件重新设计”,包括对人工智能系统、计算机视觉、电池组、电子设备、传感器和实行器的升级,接纳了总共数千个部件,数百个独特部件,在外观、一体化关节、实行器、仿生足部、机灵手、头部及全身活动范围等方面均有显著提升,有望提升人形呆板人在工业制造和仓库物流领域的运动性能与工作服从。
Figure 02的应用场景包括但不限于:
[*]医疗全愈:辅助举措未便的患者完成一样平常使命。
[*]教育与研究:作为研究平台推进人机交互技术。
[*]服务行业:在旅店、机场等场景下提供导航和咨询服务。
[*]工业自动化:在伤害或复杂环境中取代人类实行使命。
https://i-blog.csdnimg.cn/direct/cca3b8381742407babc13a2b69fec729.png#pic_center
2、硬件架构
2.1、机械设计
Figure 02 整机重量70kg,身高172cm,包含约 20-40 个关节自由度,覆盖头部、手臂、腿部等主要关节。
[*]外骨骼架构
接纳类似飞机机身的集成化外骨骼结构,由高强度外壳承担负载和压力,替代传统内部框架设计。这种设计提升了整体刚性,同时减轻重量,优化移动性能。
内部集成定制化布线系统,隐藏电源和算力线路,减少故障风险并加强封装紧实度,以满足灰尘、腐蚀、防水等特别工业现场的应用。
[*]仿生手部系统
第四代机灵仿生手,具备16个自由度,尺寸与人类手掌相当,可实行精密抓握和操作使命。
负载能力达25公斤,黑色点阵式皮肤或集成触觉传感器,加强抓握灵敏度和环境顺应性。
[*]关节与实行器
关键关节扭矩参数:肩关节50Nm(运动范围148°)、膝关节150Nm(135°)、髋关节150Nm(195°),支持大范围灵活运动。
2.2、感知和交互系统
[*]视觉模块 :配备6个RGB摄像头(分布于头部、前躯干和后躯干),支持360°环境感知和深度识别,结合AI视觉语言模型(VLM)实现快速常识性推理。并没有设置激光雷达用于感知,但不知道后期迭代版本是否会增加。
[*]语音交互:内置麦克风与扬声器,搭载OpenAI定制的语音到语音推理模型,支持自然对话交互,语音作为默认操作界面。
2.3、计算模块设计
搭载NVIDIA RTX GPU模块,机载计算与AI推理能力较前代提升3倍,支持完全自主实行现实使命。型号未知,待补充。
2.4、 模块化与扩展性
接纳可更换组件设计(如腿部、电池组),便于维护和功能升级。
外骨骼结构预留模块化接口,支持未来拓展更多应用场景
2.5、 动力与续航系统
[*]电池组:内置2.25千瓦时定制电池组,能量密度较前代提升50%以上,支持连续工作5小时,目标实现逐日有效工作时间超20小时
3、软件架构
3.1、全身控制算法架构
[*] Figure 01:基于OpenAI VLM模型的分层控制架构
Figure 01 是 Figure AI 公司推出的第一代人形呆板人,作为技术验证和积累的早期产物。Figure 01呆板人发布时,Figure AI公司和OpenAI公司属于合作关系,因此呆板人接纳了分层控制架构。即:
[*]顶层基于OpenAI 练习的大型视觉语言模型(VLM),用于语音识别和交互,提供高级视觉和语言智能。根据用于语音指令和图像传感器的感知情况,举举措作规划,通报到下一级神经网络中。此中,Figure 01 的VLM模型以10Hz的频率收罗图像。
[*]Figure 01 神经网络模型同样以10Hz的频率获取图像传感器的图像,提供快速、低级、机灵的呆板人动作规划,并以200Hz的频率输出呆板人原子级别控制指令。在图像识别和感知中,Figure 01接纳了大量呆板学习算法。
[*]底层为全身控制器,用于实现呆板人运动、抓取等作业中,电机的协同控制,底层控制器控制频率为1000Hz。公开资料表明,Figure 01的底层控制中险些没有采取任何呆板学习算法。
Figure 01呆板人已经完成十几种不同的行走算法,能有效解决行走中全身主动自由度的协同控制,且有效制止控制和机械不匹配引发的振荡问题。
https://i-blog.csdnimg.cn/direct/85b627b7f0e440b0bdaa594b44e08d82.png#pic_center
相比于其他具身呆板人的demo视频,Figure 01具有更快的指令-实行的转换速度,大概得益于200Hz的全身指令控制设计,在没有视频加速的情况下指令实行已经非常的流畅和自然。然而从视频展示中也可以看出,Figure 01呆板人全身险些没有移动,桌面上非常的简便和干净,这大概是因为该demo从数千个预练习动作经心挑取的成功率比较高的场景,并且对环境和指令要求高,因此泛化性能依旧是挑战。
[*] Figure 02:Helix VLA软硬件分层控制架构
2025年2月20日,Figure AI公司推出了Figure 02通用类人形控制的一个视觉-语言-动作模型Helix(Vision-Language-Action Model for Generalist Humanoid Control)。Helix统一了感知、语言理解和学习控制,以降服呆板人学中多个长期存在的挑战。
在架构上,Helix接纳了类Figure 01一样的分层控制计谋,即
[*]预练习视觉-语言-动作模型(VLA)模型实行顶层思考和规划,用于场景理解和语言理解,能够实现跨对象和情境的广泛泛化,其参数目为7B。此中,该模型对关节电机传感器、图像的采样频率为7-9Hz,指令输出频率为7~9Hz,猜测采样和输出为同步举行。
[*]80M的Transformer解码器举行快速的动作规划,快速反应的视觉运动计谋,将 VLA模型 产生的潜在语义表现转换为 200Hz 的正确连续呆板人动作。
[*]底层为全身控制器,用于实现呆板人运动、抓取等作业中,电机的协同控制。
https://i-blog.csdnimg.cn/direct/ee5fe448dcac40c98d2b06c33d941e98.png#pic_center
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]