半亩花草 发表于 2025-3-17 19:39:55

LMM-3DP:集成 LMM 规划器和 3D 技能计谋实现可泛化使用

25年1月来自UCSD的论文“Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation”。
大型多模态模子 (LMM) 的视觉推理能力和 3D 特征场语义丰富性的最新进展,拓展了呆板人能力的范围。这些发展对于弥合 LMM 高级推理与使用 3D 特征场低级控制计谋之间的差距具有巨大潜力。这项工作引入 LMM-3DP,这是一个可以整合 LMM 规划器和 3D 技能计谋的框架。该方法包罗三个关键角度:高级规划、低级控制和有用集成。对于高级规划,LMM-3DP 支持对环境干扰的动态场景理解、具有自我反馈的品评智体、历史计谋影象和失败后的重试。对于低级控制,LMM-3DP 使用语义感知的 3D 特征场举行精确使用。在协调呆板人动作的高级和低级控制时,代表高级计谋的语言嵌入与 3D Transformer 中的 3D 特征场共同参与,以实现无缝集成。在实际厨房环境中对多种技能和长期使命的方法举行广泛评估。与基于 LLM 的基线相比,该结果表明,低级控制的乐成率显著进步 1.45 倍,高级规划准确率进步约 1.5 倍。
LLM-3DP 如图所示:
https://i-blog.csdnimg.cn/direct/f9778090f8804207bdce68b315e9de0e.png
制造能够实行实际世界中各种长期使命的通用呆板人,是一个长期存在的题目。大语言模子 (LLM) 推动呆板人技术的最新进步,这些模子在理解实际世界和知识推理方面表现出非凡的能力。一些研究使用 LLM 将抽象使命分解为一系列高级语言指令以举行规划 、、、、、、、、、。只管 LLM 在各种实际世界使命中取得庞大进展,但目前将其集成到呆板人技术中存在几个重要缺点。起首,LLM 只能处置惩罚天然语言,而不能理解视觉,因此很难理解和顺应必要丰富视觉信息的动态实际世界场景。别的,基于 LLM 的规划器通常依赖人类语言反馈来持续实行长期规划 、、,这严重限定自主性。然而,具有多感官输入的大型多模态模子 (LMM) 已成为一种强大的工具,可为呆板人配备强大的视觉理解和跨各种环境的泛化能力。这使呆板人能够根据环境变化调解语言规划。
现有的基于 LLM 的规划器,通常依赖一组预定义的原始技能举行低级控制 、、、、、,这是大规模应用到开放世界环境的重要瓶颈。因此,对于大多数基于 LLM 的框架来说,如何以数据高效的方式得到能够顺应新环境的鲁棒低级技能,是一个巨大的挑战。最近的一些研究使用 LLM 直接输出低级控制 ,。然而,它们只在相对简单的使用使命中有用,这些使命不涉及快速的高维控制。由于 3D 理解不足,LLM 通常会在必要有用理解场景 3D 结构的复杂环境中失败。别的,最近的研究使用视觉-语言模子 (VLM) 举行视觉基础研究,推测目标物体的边框或关键点 ,。只管结果很有盼望,但它们依赖于现成的 VLM,而这些 VLM 可能并未针对动态环境中的特定复杂使命举行完全优化。
LLM 作为使命规划器。大语言模子 (LLM) 的最新进展极大地影响呆板人在各种应用中的发展。值得注意的方法通常包罗使用 LLM 生成高级规划 、、、、。比方,SayCan 通过生成可行的语言规划并接纳affordance 函数来衡量技能的实行可能性,夸大 LLM 非凡的知识推理能力。一些方法还使用 LLM 生成编程代码或符号 API 作为规划 、、、、、、。然而,这些方法仅将天然语言指令作为输入,缺乏通过多模态感官观察感知世界的能力。因此,它们无法根据环境反馈调解语言规划,这严重限定它们在动态实际环境中的性能。由于 LMM 的出现,一些研究 、、 使用 GPT-4V 举行视觉输入规划。然而,他们只将 GPT-4V 用作一个固定的规划器,没有品评和自我改进。
低级呆板人原语。只管在高级规划方面取得了庞大进展,但之前基于 LLM 的语言规划器 、、、、 强烈假设存在可靠的低级技能供高级规划器检索,这些技能通常是手动预定义的技能集。一些研究 、、、 使用 LLM 在文本中输出直接的低级控制,这对于应用高维控制的复杂实际世界使命是不切实际的。一些方法 、、、、 还使用视觉语言模子 (VLM) 来推断基于语言的功能 affordance 并实行活动规划。然而,对于具有多种几何形状和复杂 3D 结构的具有挑战性环境,它们仍然缺乏准确的 3D 理解。然而,LMM-3DP 通过将高级规划器与语言条件 3D 计谋相结合来办理这一挑战,该计谋可以通过对场景结构的全面 3D 理解有用地学习新技能。
低级技能的 3D 表示。为了学习针对各种技能的视觉模拟学习计谋,大多数先前的研究 、、、、、 不停在使用基于 2D 图像的表示举行计谋练习,而最近的研究越来越多地熟悉到 3D 表示相对于 2D 图像的优势 、、、、、。 GNFactor 和 DNAct 通过从视觉基础模子中提取 2D 特征来学习 3D 表示。然而,它们仍然必要费力的多视图图像网络来练习 NeRF 模子,这对大规模摆设构成了挑战。
如图所示LLM-3DP流水线:
https://i-blog.csdnimg.cn/direct/4df5247afc214d0c8c1eeaa330bf4d8b.png
用于高级规划的 LMM

带视觉反馈的规划。在实际世界中,实行使命的最佳规划可能不是最初设计的规划。比方,你可能规划将蔬菜放在最喜欢的蓝色碗里作为晚餐,但当发现蓝色碗不可用时,你会改用红色碗。同样,在呆板人规划中,呆板人必须能够根据当前情况更新其规划,这必要在使命实行期间提供视觉反馈。将 GPT-4V 作为规划器集成到呆板人的实行循环中,使其能够在每次实行技能后更新规划。这种设计,加强呆板人顺应动态场景(比方当存在环境干扰时)的能力,并在低级控制无法实行时重新尝试之前的技能。
批评家智体。为了确保规划器生成的规划正确可靠,引入一个额外的批评家智体,以主动识别生成规划中的缺陷并不断自我改进。批评家智体仅将视觉观察和提出的规划作为输入(无需人工指令),它会检查下一步在当前情况下是否可行。假如批评家发实际行下一步将导致不良结果,则其推理将输入回规划器,然后规划器提出新规划。比方,规划器的输出很轻易受到人类指令的影响。即使使用流行的提示技术 ,这个题目仍然存在。假如人类指令是关闭所有抽屉,但场景中有些抽屉已经关闭,规划器仍可能生成一个涉及关闭所有抽屉的规划。但是,批评家可以准确地判断呆板人不应该关闭已经关闭的抽屉,从而改正规划器的错误。
终身学习。目标是让规划器随着时间的推移而改进,并通过从已往的经验中学习来避免重复犯错,就像人类学习一样。然而,对规划器举行微调必要耗费大量的计算资源。相反,使用人类对 GPT-4V 输出规划和推理的品评,然后总结这些品评以举行上下文学习。这些总结被存储为影象,供规划者将来参考。别的,规划者可以在必要时向技能库提出新技能,然后低级计谋将根据这些新技能举行相应更新。比方,在烹调使命中,假如没有点击技能,呆板人就无法打开炉子。规划者会将点击技能确定为将来学习的必须技能。随着技能库的扩展,这种方法使提出的框架能够处置惩罚更复杂的使命。
如图所示是规划器如何在呆板人实行期间更新规划的示例:
https://i-blog.csdnimg.cn/direct/188d0a78405d484fbe9f167794621bf7.png
使用 3D 语义表征的技能学习

根据规划器生成的语言指令,练习一个语言条件化的 3D 计谋,从人类演示数据中学习所需的低级技能。不是推测每个连续动作,而是提取关键帧动作并将技能学习转换为基于关键帧的动作推测题目。这种方法简化连续控制,并且在学习可处置惩罚新目标和环境的泛化计谋时样本服从更高。
视觉和语言编码器。为了应对具有各种目标和场景结构的复杂实际环境,接纳双分支架构学习同一的 3D 和语义表示:i)使用互联网规模数据举行预练习的视觉基础模子,在理解复杂场景方面取得了巨大乐成,具有强大的零样本泛化能力。为了在呆板人技术中使用这些强大的视觉基础模子,应用基础模子(比方 DINO )来提取具有丰富语义的 2D 图像特征。然后,将 2D 特征图反向投影到 3D 空间来得到 3D 点特征。ii)只管视觉基础模子具有丰富的语义,但它仍然缺乏准确的几何理解。因此,接纳基于点模子的单独分支(比方 PointNext )来学习几何点特征,以更好地捕捉局部 3D 结构。随后,语义和几何点特征都由 MLP 层融合。为了将语言理解纳入计谋,用来自 CLIP 的预练习语言编码器来得到语言嵌入。
关键帧动作推测。给定融合的 3D 点特征、语言嵌入和呆板人本体感受,用 3D Transformer 架构来推测下一个最佳关键帧的 6-DOF 姿势。不再推测连续动作,而是将模子推测简化为平移 a/trans、旋转 a/rot、夹持器张开度 a/open 和防撞概率 a/collision。具体来说,通过在夹持器的工作空间中采样一组固定的查询点来近似连续的 3D 场。
这样做是因为,与基于体素的方法(这些方法会离散化输出空间并且内存服从低下)差别,基于采样的方法提供了连续的输出空间并在练习期间节省内存。还定义一个可学习的 token,以更有用地关注局部结构。查询点和可学习的token都通过具有视觉和语言特征的多个交织注意层,以得到 token 特征 f/t 和查询点特征 f/q。然后,计算 f/t 和 f/q 的内积,为每个查询点分配一个分数。通过对分数应用 argmax 运算来选择下一个最佳路径点 P/i。受 的启发,随后在 P/i 周围重新采样一组淘汰的查询点,并根据之前的推测在这些查询点中优化路径点的选择。
对于平移,计算推测点索引 Q/trans 与真值 Y/trans 之间的交织熵损失。将标签平滑函数 LS 应用于平移损失,以防止过拟合并减轻实际世界演示中的标签噪声。
实验设置和实施细节如下。
为实验设置一个真实的厨房环境,与简单的桌面设置相比,该环境更复杂,并且具有更多视觉特征。呆板人是一个 7-DoF Franka Emika Panda 呆板人,带有 1-DoF 可变形夹持器。对于视觉输入,使用两个 Intel RealSense D435 摄像头:一个提供正面视图,另一个安装在夹持器上。为了网络基于模拟学习的低级计谋数据,用 HTC VIVE 控制器和基站来跟踪人类手部活动的 6-DOF 姿势。然后用 SteamVR 将控制器活动映射到 Franka 呆板人的末端实行器。在低级计谋练习中,对一个厨房设置使用 100 个人类演示,对两个厨房设置使用 200 个演示(每个使命 10 个演示)。用 Adam 优化器,学习率为 3 × 10−4。练习在一台 NVIDIA GeForce RTX 3090 上举行,批次大小为 16。用色彩丢失和平移加强的技术来进步模子性能。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: LMM-3DP:集成 LMM 规划器和 3D 技能计谋实现可泛化使用