及时调解,机动抓取!RT-Grasp:大语言模型赋能的机器臂抓取新架构 ...

打印 上一主题 下一主题

主题 916|帖子 916|积分 2748

导读

   
近年来,大型语言模型(LLMs)在多个范畴显现出了卓越的推理能力,逐渐成为各行各业的紧张工具。然而,在机器人范畴,LLMs的应用目前紧张范围于操纵规划任务,尚未充实发挥其在详细机器人操纵中的潜力,尤其是在精确的抓取任务中。©️【深蓝AI】编译

         
论文出处:IROS2024

   
论文标题:RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

   
论文作者:Jinxuan Xu, Shiyu Jin, Yutian Lei, Yuqian Zhang and Liangjun Zhang

   
项目地址:https://sites.google.com/view/rt-grasp

   
编译:阿豹

   
本文提出了一种创新的方法——推理调优(Reasoning Tuning),旨在解决这一题目。通过在训练过程中加入推理阶段,该方法让LLMs能够天生数值猜测,尤其是在机器人抓取任务中的关键数值输出,如抓取姿势。得益于LLMs强大的推理能力和丰富的先验知识,机器人不仅能够天生适应不同场景的抓取方案,还能够通过对话进行机动调解,从而实现更加智能化的抓取操纵。

   
通过在多个抓取数据集和真实实行中的广泛验证,结果表明,具备多模态能力的LLMs能够精准猜测抓取姿势,乐成弥合了基于文本的规划与实际机器人控制之间的隔阂,显著提升了LLMs在机器人抓取范畴的应用潜力。

   1.引入

   
近年来,人工智能的迅猛发展,尤其是大型语言模型(LLMs)的出现,极大推动了各个范畴的进步。这些模型凭借丰富的知识库和强大的推理能力,正在彻底改变我们处理各种任务的方法,尤其是在语言处理方面。机器人学中,LLMs在促进机器人与人类之间的直接互动方面发挥了紧张作用。比方,在机器人操纵规划等任务中,很多研究[1][2][3]已经利用LLMs将用户的天然语言指令转化为机器人可执行的多步调规划。然而,只管LLMs在机器人学中的应用潜力巨大,它们目前的应用紧张集中在规划任务中,尤其是在需要精确数值输出的任务中,LLMs的应用却面临着瓶颈。

   
本文提出了一个创新的方法,探讨了如何将LLMs的推理能力应用于机器人任务中的数值猜测,特别是在机器人抓取任务中的应用。传统的机器人抓取方法通常依赖于确定性猜测,但这些方法由于缺乏推理能力,在实际应用中常常无法应对复杂环境的挑衅。比方,很多基于CNN架构的传统方法在基准数据集上体现出色,但在实际操纵中,常常出现理论上精确但执行时不切实际的环境。详细而言,某些理论上精确的抓取姿势,在实际操纵时大概由于机器人的夹爪限制或其他因素,导致无法乐成实施。因此,接纳具有推理能力的非确定性方法显得尤为紧张,它不仅能天生适用于不同环境的实际抓取姿势,还能根据用户的命令不断优化猜测。

   
本文提出了推理调优(Reasoning Tuning)这一全新方法,在机器人抓取任务中引入了推理阶段,使得LLMs能够在天生数值猜测之前,首先通过逻辑推理推断物体的类型、形状、位置等信息,进而得出精确的抓取姿势猜测。这一推理阶段帮助LLMs更好地利用其广泛的先验知识,从而为机器人抓取任务提供更为精准的数值猜测。通过对多模态LLMs进行推理调优,本文展示了该方法在进步抓取任务数值猜测精度方面的有效性。

   
为验证推理调优方法的效果,本文还提出了专门用于机器人抓取任务的数据集——Reasoning Tuning VLM Grasp数据集,并对该数据集进行了多项实行证实。同时,我们探索了两种经济的训练策略——预训练和低秩适应(LoRA)微调[9],旨在提供一种资源高效的方式,将多模态LLMs的能力转移到机器人抓取等实际任务中。

   
总的来说,本文的研究重点是将多模态LLMs应用于数值猜测任务,特别是机器人抓取任务。与传统简直定性方法不同,本文的方法不仅融入了先进的推理能力,还提出了一个新的猜测优化范式。紧张贡献包括:

   

  • 提出推理调优(Reasoning Tuning)方法,利用预训练多模态LLMs的先验知识,促进其在需要数值猜测的任务中的适应。
  • 提出Reasoning Tuning VLM Grasp数据集,专门为机器人抓取任务的LLMs微调计划。
  • 通过两种盘算高效的训练策略进行实行证实,并通过真实硬件实行验证方法的有效性,结果表明该方法能够基于用户命令精确优化抓取猜测。
   

   
图1|传统抓取方法与本文方法对比©️【深蓝AI】编译

   2.详细方法与实现

   
在本节中,本文介绍了“推理调优(Reasoning Tuning)”在机器人抓取任务中的应用(RT-Grasp)。该方法旨在弥合LLMs固有的文本输出形式与机器人任务中对精确数值猜测的需求之间的鸿沟。其紧张目标是通过利用LLMs所蕴含的丰富先验知识,促进其在数值猜测中的应用,特别是在机器人抓取任务中,由图1所示,对比起传统的模型,本文提出的模型能够在进行抓取时提供多组抓取姿态供用户选择,用户可以根据物体的实际环境和任务所需要的抓取策略来选取不同的抓取姿态,从而提升机器人抓取任务的机动性。本文实现的核心在于推理调优机制,接下来的部门,笔者紧张详细介绍推理调优部门的实现方法,同时解说训练所需的策略(即微调策略)。

   2.1 推理调优

   
推理调优方法是本文的核心,该方法通过图像-文本对作为输入,并天生布局化的文本输出,来对多模态LLMs进行微调。这种布局化输出包括一个初始的推理阶段,随后是数值猜测,如图2所示。值得注意的是,整个输出以文本形式呈现,模型被训练为顺序猜测相应的token。通过在输出开始时引入推理阶段,本文鼓励模型基于与任务相干的逻辑推理天生精确的猜测。

   

   
图2|推理调优方法Pipeline©️【深蓝AI】编译

   
首先对于一个抓取任务,机器人会执行第一阶段,推理阶段:对于机器人的观测数据,可以将不同的观测数据作为不同的样本,每个数据样本包括一张RGB图像和一段文本指令,指导模型猜测抓取姿势(见图3)。推理阶段中,通过机器人的观测以及大模型强大的泛化能力,能够获得物体的整体描述,包括形状和位置等,并估计了相应的抓取策略。比方,对于杯子,只管它们的颜色、计划或材质大概不同,但一样平常的抓取策略是抓取杯子的把手或上缘。通过整合这样的推理阶段,模型能够对物体和相干的抓取策略形成广泛的理解,从而在后续步调中天生更为准确的数值猜测。

   

   
图3|推理调优阶段推理过程示例©️【深蓝AI】编译

   
值的注意的是,在推理阶段的布局化文本中,本文根据物体类别天生了模板,因为同一类别物体的抓取策略通常相似。对于每个类别,作者创建了一系列不同的推理模板。在每个数据样本的布局化文本中,我们根据物体类别随机选择一个推理模板,然后附加上真实抓取姿势的文本,这个过程大概比较难理解,笔者认为可以将其简单的转述为:本文方法是以文本的形式获得机器人抓取时的各种抓取策略以及环境的观测信息,而根据机器人抓取的常见场景,能够将这些观测信息与抓取策略大致的归为几类(属于是机器学习中常见的无监督归类题目,LLM非常擅长),随后针对每个类型,提供对应的模版,这样可以促进机器人抓取任务的标准化和规范化,减少大模型自主决策导致的一些幻觉题目。

   
为了确保推理模板的质量,本文接纳了多步调的方法。首先,使用GPT-3.5天生针对每个类别的模板。随后,作者要求其优化这些文本,去除冗余或无关的信息。这些推理模板通常描述物体的形状,并提供一个通用的抓取策略。图4展示了一些推理模板的示例。

   

   
图4|物体抓取推理文本示例©️【深蓝AI】编译

   
对于数据集中的输入文本指令,本文也使用GPT-3.5天生了一系列同等的指令模板,涉及机器人抓取任务,值得注意的是,天生该图像-文本数据集的方法可以适应于其他逾越机器人抓取任务的数值猜测任务。根据任务的不同,调解推理阶段中的策略,可以利用LLMs嵌入的适当先验知识来支持不同任务的执行。

   2.2 训练策略

   
提到训练,首先我们对训练所需要用到的数据集有所相识,本文创建了一个新的数据集Reasoning Tuning VLM Grasp数据集,用于微调多模态LLMs。每个数据样本包括一张RGB图像和一段文本指令,指导模型猜测抓取姿势。此外,该数据集中的布局化目标文本包含了针对输入图像中的物体的推理阶段,接着是实际的抓取姿势。

   
现有的机器人抓取数据集通常仅包含图像和数值的真实抓取姿势。与此不同,本文提出的Reasoning Tuning VLM数据集提供了专门为集成多模态LLMs到机器人抓取任务中而计划的图像-文本对。在该数据集中,图像来自基准的Cornell Grasp数据集,在本文的数据集中,每个图像
都有一轮对话数据
,此中
表示输入指令,
是相应的目标答案。本文执行了两种训练策略:预训练和LoRA微调,两种策略都使用自回归训练目标,详细来说,对于长度
为的序列,天生目标答案
的概率可以表示为:

   

   
此中
为模型的可训练参数,
表示当前的猜测token;
表示当前token
之前的答案token。本文的训练部门基本上在该数据集上进行,详细可参考图5,此中展示了两种训练策略,1)预训练:只有投影层的参数可训练;2) LoRA微调:仅对投影参数进行微调层,通过机动调解训练的策略,可以实现不同的训练效果,此中LoRA Fine-tuning(图5右侧)的训练pipeline能够直观的反应出这部门训练的复杂度和维度比左侧更高,因此在后续的实行中也能够体现出其可获得更好的结果。

   

   
图5|本文训练策略图示©️【深蓝AI】编译

   3.实行

   
本文的实行部门包含数值实行,可视化实行,以及大模型的调试和天生可视化实行,笔者将一次挑选重点结果为大家介绍,首先实在公开和私有数据集上的量化数值实行。

   

   

   
图6|量化数值实行©️【深蓝AI】编译

   从图6可以看出,在量化数值实行中,本文方法能够取得不错的效果,在下面的折线图中,显着能够观察到基于LoRA Fine-tuning训练策略的模型能够取得更好的效果,这和训练的复杂度和维度相干,验证了作者在文章提出的假想。随后作者进行了抓取实行。
   
接下来是本文的重头戏,也就是阴影渲染可视化实行。

   

   
图7|抓取物体展示©️【深蓝AI】编译

   

   
图8|抓取实行结果©️【深蓝AI】编译

   图7和8为抓取实行的结果,图7丰富的抓取物体能够反映出本文方法良好的泛用性,图8中的柱状图能够看到本文方法对于不同的抓取物体均能够取得不错的效果,这是本文调优推理策略的卓越贡献。最终是大模型运行可视化实行,如图9所示,能够清晰的看到通过人机交互,大模型能够对于抓取策略进行及时的调解,根据User的指示机动切换不同的抓取策略,为抓取过程带来更多的机动性。
   

   
图9|大模型运行可视化©️【深蓝AI】编译

   4.总结

   本研究强调了大型语言模型在传统文本处理之外的潜力。作者提出的方法利用了LLMs的丰富先验知识,特别是在机器人抓取任务中的数值猜测能力。通过在基准数据集和实际场景中的广泛实行,作者验证了该方法的有效性。未来的工作将扩展这一方法的验证,操持将其应用于包含更广泛物体的抓取数据集。此外,作者认为探索多模态LLMs在其他机器人操纵任务中的数值猜测适应性,也是一个具有远景的研究方向。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

道家人

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表