ICLR 2025 Spotlight:让呆板人实现「自主进化」,蚂蚁数科、清华提出具身 ...

打印 上一主题 下一主题

主题 1872|帖子 1872|积分 5616


迩来,全球 AI 和呆板学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学团结团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文
论文出自蚂蚁数科与清华大学兴军亮老师团队相助的科研项目。第一作者卢昊飞、第二作者吴哲,分别为清华大学计算机系在读硕士与博士研究生。通讯作者兴军亮老师恒久致力于感知与博弈决议的理论与应用研究,在多智能体系统、强化学习及智能决议等范畴取得了一系列紧张成果。



  • 论文题目:BodyGen: Advancing Towards Efficient Embodiment Co-Design
  • 论文所在:https://arxiv.org/abs/2503.00533
  • 项目代码:https://github.com/GenesisOrigin/BodyGen
本文研究探索了一个有趣但引人深思的问题:呆板人能否像生物一样自主进化?团队通过实行给出了肯定答案:团结强化学习与深度神经网络技术,BodyGen 能在极短时间内主动演化出适应当前环境的最优呆板人形态及控制计谋,为具身智能的加速进化提供了全新的思绪。
相关代码已开源至 GitHub 堆栈,接待尝试。
据了解,本届大会共收到 11672 篇论文,被选中做 Spotlight(聚光灯/特别关注)大概 Oral Presentation(口头陈诉)的比例约为 5.1%。
以下是论文作者团队对该论文的解读:
为什么呆板人需要「自主进化」?
天然界生物通过数百万年的进化,获得了适应环境的完善身体结构与环境交互能力。然而,呆板人的操持不但需要极其巨大的人类专家知识,且针对特定环境需要进行大量的实行、操持和迭代。
受天然界生物学启发,科学家提出形态控制协同操持(Co-Design)技术:让呆板人模拟生物进化过程,在优化控制计谋(大脑)的同时演化自身形态(形体结构、关节参数)从而适应复杂环境。
然而,这一范畴恒久面临两浩劫题:一是形体搜索空间巨大,在有限时间内难以穷举全部可能的呆板人形态;二是呆板人形态与控制计谋深度耦合,评估每一个候选形态操持需要大量计算资源。
BodyGen 的焦点思绪

来自清华大学与蚂蚁数科的研究团队提出 BodyGen 框架,使用强化学习实现了端到端的高效形态-控制协同操持。
在这项工作中,将形体操持过程划分为两个一连阶段:形态操持阶段、环境交互阶段。
在演化阶段:研究引入 Transformer(GPT-Style)自回归地构建呆板人的形体结构并优化参数;在环境交互阶段,同样使用 Transformer(Bert-Style)对呆板人的每一个关节信息进行集中处理并发送到对应关节马达,与环境交互并获得反馈。在几轮的迭代后,BodyGen 可以快速生成当前环境的最佳呆板人形态和相应的控制计谋。
BodyGen 的三大技术点解读
BodyGen 是一个生物启发式的训练框架,它使用深度强化学习进行端到端的形态-控制协同操持。BodyGen 包含三项焦点技术点:
(1)轻量级的形体结构位置编码器 TopoPE
TopoPE 就像呆板人的「身体感知」系统,通过给呆板人每个部位贴上「智能标签」。无论呆板人的形状怎样变化,这些标签都能帮助 AI 明白「这是腿」、「这是手臂」等。这样,即使呆板人的形态发生变化,AI 也能快速适应并控制新的身体结构。
(2)基于 Transformer 的集中式的神经中枢处理网络 MoSAT
MoSAT 就像呆板人的「大脑中枢」,它的工作方式很像人脑:


  • 信息收集:首先收集呆板人各个部位的信息(位置、速度等)
  • 中央处理:全部信息在「大脑」(Transformer 网络)中进行交流和处理
  • 指令发送:处理后的信息转化为具体动作指令,告诉呆板人怎样移动
(3)时序信用分配机制下的协同操持


  • BodyGen 让 AI 同时负责两件事:操持呆板人的身体和控制呆板人的动作。
  • 操持动作:AI 可以给呆板人「长出」新的肢体,「剪掉」不需要的部分,或保持现有结构
  • 控制动作:AI 学习怎样控制呆板人的每个关节来完成任务(如行走、跳跃)
操持一个好的呆板人形态可能要等好久才知道效果好不好(比如操持了长腿,要等呆板人学会走路才知道这操持是否合理)。BodyGen 通过特殊的「嘉奖分配机制」,让 AI 能够合理评估自己的操持决议,不会由于短期效果不明显就放弃可能很好的操持。
第一:TopoPE 形体结构位置编码器

在人脑中,来自身体不同区域的信号会被传输到特定的神经区域进行处理,这隐含了消息来源的位置信息。对于呆板人,我们同样需要高效的形体信息表征。

在 BodyGen 中,拓扑感知位置编码(TopoPE)通过哈希映射,将呆板人肢体到根肢体的路径映射为唯一的嵌入(Embedding),有用解决了形体演化过程中的索引偏移问题,从而促进了协同操持过程中相似形态呆板人的知识对齐和共享。
第二:MoSAT 集中式的神经中枢网络

为了通用表征形体空间中的各种各样的呆板人,作者使用尺度序列模型 Transformer 处理拓扑结构可变的呆板人形体。呆板人的每一个关节信息都会颠末「编码」-「集中处理」-「解码」三个阶段,最终生成动作信号:
信息编码: 来自不同肢体的信息首先会携带其拓扑位置信息首先通过编码层进行信号编码

集中处理: 这些编码后的信息借助 Transformer 网络进行点对点的信息通讯,实现集中式的信息交互和处理

信息解码: 最终,这些信息颠末解码网络解码,从而获得呆板人的动作信号

第三:时序信用分配机制下的协同操持
在 BodyGen 的界说中,智能体具有两类基本动作:形态操持动作和形体控制动作。形态操持动作包含三类基本元动作:


  • 肢体生长:呆板人的形体向下生长出一个额外的肢体
  • 肢体退化:呆板人的形体删除一个指定的肢体
  • 肢体维持:呆板人的形体维持某一个肢体不变
同时形体控制动作包含呆板人与环境交互每一个关节马达的输着力矩。

本研究使用近端计谋优化算法(PPO)进行端到端的协同操持训练优化。相较于形体控制动作,形态操持动作无法获得及时的环境反馈。作者提出改进的广义优势估计(GAE),条理化地对环境嘉奖进行动态分配,从而使智能体在形态操持和控制阶段获得平衡的优势估计,从而提升训练性能。
BodyGen 测评效果:参数低至 1.43M,实现 60% 性能提升
研究者选取了 3 种基础的呆板人拓扑结构(线性、双腿、四腿),在不同的仿真环境中,环境嘉奖信号仅为运动灵敏性(指定方向的运动速度)。给定初始结构操持,借助 BodyGen 进行形态-控制协同优化。

作者在 10 个不同范例的环境进行了综合测评,实行表明,BodyGen 相对于开始进的基线实现了 60.03% 的均匀性能提升,在 10 个不同任务种类的环境下(如爬行、地形穿越、游泳等),BodyGen 生成的呆板人形态相比于现有最优方法(如 Transform2Act、NGE 等)在环境适应性评分获得了 60.03% 的涨幅。

研究对序列模型、时序信用分配算法进行了充实的对比消融,对文章提出的 MoSAT 架构和时序信用分配算法的进行了具体和充实的实行验证。

作者同样对形体结构位置编码进行了消融实行,证实 TopoPE 在形态表征上的有用性。

BodyGen 的均匀参数量为 1.43M,相较于其他基线算法更加轻量级。BodyGen 的紧凑操持使其在保持生成能力的同时,显著低落了计算本钱和存储需求,提升了训练的稳定性与服从。这种高效的模型架构不仅镌汰了训练时的资源斲丧,还提升了推理阶段的响应速度,使其更实用于资源受限的环境,甚至可在一台笔记本上借助 CPU 进行高效推理。

场景应用
BodyGen 作为一个通用形体-控制协同操持算法,展现出了一定的应用潜力,包括但不限于:


  • 环境适应性呆板人操持: 针对特定环境需求,快速生成最优形态与控制计谋,显著缩短呆板人操持周期,提升开发服从;
  • 仿气愤器人研究: 通过模拟生物运动机理,操持仿生足、鳍、翼等结构,为探索生物运动原理提供可计算平台;
  • 虚拟人物动作生成: 基于物理引擎的高效动作优化,为游戏、动画制作及虚拟角色行为生成提供技术支持。
未来预测
团队操持通过物理模拟迁移技术推动 BodyGen 在实际场景中的应用。随着计算能力的提升,这一框架有望成为实现通用具身智能的紧张路径,使呆板人能够通过感知-行动闭环持续优化形态与行为计谋,逐步实现自我操持与主动进化。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

莱莱

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表