人形机器人活动与操作: 控制、规划和学习方面的当进步展与挑战 ...

打印 上一主题 下一主题

主题 1899|帖子 1899|积分 5697


前言

   
     图 1:执行活动和操作任务的人形机器人:(a)HRP-4 在顺应地形的同时擦拭木板[1];(b-g)Digit、Hector[2]、Atlas、H1、Justin[3]和 Apollo 取放物体;(h)iCub 推小车[4];(i)Nadia 开门[5];(j-k)Figure 01 和 Optimus 操作物体;(l)麻省理工学院人形机器人全身推动恢复[6]。            人形机器人在执行各种人类级别的技能方面潜力巨大。这些技能涉及活动、操作和认知能力。在机器学习进步和现有基于模子的方法上风的推动下,这些能力盼望迅速,但往往各自为政。因此,实时概述这一快速发展范畴的当进步展和未来趋势至关重要。本调查报告起首总结了过去三十年来不停是人形机器人技术支柱的基于模子的规划和控制。然后,我们探究了新出现的基于学习的方法,重点是强化学习和模拟学习,它们增强了机体操作技能的通用性。我们研究了将基础模子与人形机器人体现情势相结合的潜力,评估了开发通用人形机器人的前景。此外,本调查还涵盖了新出现的全身触觉传感研究,这些研究可以释放涉及物理交互的新人形机器人技能。本调查报告最后讨论了面临的挑战和未来趋势。
索引术语: 人形机器人 操作 模子猜测控制 全身控制 模拟学习 基础模子 全身触觉传感


一、导言

        如图 1 所示,人形机器人非常适合执行人类级别的任务,因为它们的构造(抱负情况下)是复制人类的动作,以实现各种全身活动操作任务,例如,从制造到服务的各种应用。人形机器人的拟人化特征使其在执行这些类似人类的任务时与其他机器人情势大相径庭。人形机器人可以与人类互动,完成物理协作任务,例如协作将一张又重又大的桌子搬上楼,并由人类帮忙。然而,要同时完成这些复杂的任务并解决高度复杂的机器人动力学问题仍具有挑战性,更不用说与人类进行安全的物理协作和/或在非结构化环境中进行操作了。作为解决这一问题的一个有前途的方向,人形机器人可以利用人类和/或从人类那里获得的大量数据,快速把握活动和认知技能。因此,利用人类知识进行人形机器人的体现,有可能是实现体现智能的一条捷径。
        机器人的认知和自主能力正从亘古未有的速度蓬勃发展。感知算法可以实时检测、分类和分割各种物体。基于模子的方法利用猜测控制和反应控制实现了机动可靠的活动和操作。同时,深度学习计谋通过探索和模拟,在机器人硬件上展示了令人佩服的控制效果。在海量互联网规模数据集上训练的大型基础模子开始表现出开放世界推理的能力。因此,为实际世界应用构建自主人形机器人已成为可能,从而出现了许多人形机器人公司和详细的部署应用。特别是借助强盛的基于 GPU 的并行化能力,英伟达(NVIDIA)等公司和波士顿动力(Boston Dynamics)、特斯拉(Tesla)、Figure 等拥有人形机器人实体技术的公司开始在人形机器人的体现智能方面睁开相助。
   
     图 2:本调查报告起首定义了人形机器人及其活动和操作能力的干系概念。围绕实现人形机器人的定位操作任务,本调查的核心深入探究了两大类方法:传统的规划和控制方法,如接触规划、活动规划和控制,以及新兴的基于学习的方法,包罗技能学习和基础模子。此外,本调查还强调全身触觉传感是实现接触丰富的定位操作的关键模式。            仿人形机器人技术突飞猛进,本文回顾了仿人形活动与操作(HLM)范畴的最新发展。如图 2 所示,人形机器人技术是一个多学科范畴,跨越筹划、执行、传感、控制、规划和决策等范畴。在本研究中,我们主要从基于模子的方法和基于学习的方法的角度来研究任务规划、活动规划、计谋学习和控制。每个主题都有广泛的研究,我们旨在重点先容每个主题中的代表性作品。在每个章节中,我们都提供了调查论文,供读者进一步阅读。我们起首综述了传统的基于模子的规划和控制方法。然后,我们将重点转向最新的基于学习的方法,尤其是那些利用强化学习、模拟学习和基础模子的方法。
        基于模子的方法是实现 HLM 功能的基石。这些方法在很大程度上依赖于物理模子,而物理模子会极大地影响活动天生和控制的质量、速度和保证。在过去的十年中,规划和控制技术呈现出向猜测-反应控制层次结构靠拢的趋势,采用全身模子猜测控制器(MPC)或简化模子(中央动力学)MPC 与局部任务空间全身控制器(WBC)相结合[7]。这些规划和控制技术通常被表述为最优控制问题(OCP),由现成或定制的数值求解器求解。固然这些数值最优化方法已经非常成熟,但研究仍在继续,重点是提高其计算服从、数值稳定性、鲁棒性和高维体系的可扩展性。
        基于学习的方法在人形机器人范畴迅速崛起,并取得了令人瞩目的成果,吸引了越来越多的研究职员投身该范畴。在各种学习方法中,强化学习(RL)已被证明有能力实现强盛的活动技能。然而,尽管强化学习能够通过试错发现新活动,但对于以高自由度机器人和稀疏嘉奖设置为特征的人机工程任务而言,没有示范数据的纯强化学习往往服从低下,令人望而却步。因此,在模拟中训练 RL 并将其迁徙到实际世界已成为一种广泛方法,尽管它面临着弥合模拟到实际差距的挑战。不过,从专家示范中进行模拟学习(IL)已被证明是获取活动技能的有效方法。活动克隆[8]等模拟学习技术已表现出令人印象深刻的模拟各种技能的能力。许多研究职员和公司都在通过 IL 追求多功能和可通用的计谋,并将重点放在扩展数据上。固然机器人的履历数据可以是多样化和高质量的,但其获取既昂贵又耗时。因此,从互联网视频和公共数据会合随时可获得的大量人类数据中学习,成为人形机器人技术的关键计谋。向人学习是人形机器人独有的上风。然而,尽管人形机器人可以达到人类程度的活动技能,但一个更深层次的体现智能问题依然存在:怎样学习人类动作背后的意图(泉源),而不但仅是复制观察到的动作(效果)。根据假设,要理解人类的意图,需要通过能够对环境和任务进行语义解释的基础模子(FM)来实现。这一假设促使我们将基础模子作为调查的一部分。
        正如几项全面调查[9, 10]所强调的那样,调频技术的巨大成功引发了普通机器人研究的热潮。本文报告了调频机器人在人形机器人中的应用。通过有效利用互联网规模的数据集来获取广泛的知识,FM 为机器人技术中持续存在的通用性挑战提供了一个前景广阔的解决方案。经过预训练的调频机器人具有开放世界推理和多模态语义理解能力。这些能力对于在复杂物理环境中需要恒久、逻辑连贯的任务规划的机器人来说非常名贵。在人形机器人范畴,FM 已成功地作为任务规划模块应用于分层规划和控制框架中。然而,在端到端过程中,FM 尚未实现低级传感器活动技能的稳健执行。尽管专门针对人形机器人应用的调频技术的著作数目有限,但这一范畴正日益活跃,并有望在未来取得庞大发展。
1.1 调查目标和门路图

        本调查报告可作为初入该范畴的研究生和研究职员的有效资源,提供对人形机器人技术方法的全面回顾,同时也为学术界和工业界的人形机器人专家提供最新盼望的视角。
        本调查报告与有关人形机器人的调查论文[11, 12],以及基于模子的规划[13]和控制[7]、基于学习的方法[14]等主题干系。有别于这些偏重于人形机器人特定子范畴的调查论文,我们的论文旨在提出一个更广泛的概述,涵盖规划、控制和学习主题,包罗 RL、IL 和基础模子。这些内容提供了新的见解,增强了传统基于模子的方法所实现的人形机器人操作能力,并符合当前学术界和工业界对人形机器人的发展趋势。我们特别提出以下问题:


  • - 问题 1:目前有哪些基于模子和基于学习的先辈方法已经实现了人形机器人的定位操作技能?
  • - 问题 2:在实现人形机器人的多功能性和通用性方面还存在哪些差距?
  • - 问题 3:哪些方法有望弥补这些差距?
        如图 2 所示,本调查报告按以下顺序编排。我们起首建立背景,在第二节中定义人形机器人以及活动和操作的关键能力。我们将在第三节详细先容全身触觉传感。然后,我们先容实现活动操作的传统方法,包罗接触规划(第四节)、活动规划(第五节)和控制(第六节)。
        然后,我们将研究最先辈的基于学习的算法。在第七节中,我们探究了利用强化学习和模拟学习来获取机车操作技能的方法。在第八节中,我们讨论了基础模子怎样成为语义理解和决策的支柱,从而实现有效的人形机器人任务规划。最后,我们在第九节中强调了这一范畴的庞大挑战,并提出了我们对未来潜在研究方向和新兴机遇的看法。
二、背景

在本节中,我们将讨论人形机器人的拟人化程度。然后,我们重点先容其主要能力:双足活动和全身操作。最后,我们将结合最先辈的方法和当前面临的挑战,详细先容综合活动操作技能。
2.1 仿人机器人
        人形机器人是指任何与人的形状相似的拟人机器人[11]。通常情况下,人形机器人拥有一个躯干、两只手臂和两条腿,但拟人化程度可能有所不同。例如,有些人形机器人只有一双手或有轮子的腿 [15]。拟人化程度可以从重量、四肢尺寸和所有关节的自由度等方面(与人类)的差异来评估。
        本综述的主要重点是模拟人类形态和功能的人形机器人,而不是那些密切模拟人类视觉外观和外貌的机器人。由于其形态与人类相似,人形机器人原则上可以利用从人类演示中网络到的丰富数据。从这个意义上说,人类的技能更方便地转化为人形机器人。通过数据和计算的扩展,人形机器人将更有能力把握多变和可通用的技能。
        从人机交互的角度来看,人形机器人将更受青睐。这是因为,仿人形机器人会以人类用户预期和可猜测的方式产生动作,其类似人类的活动使人更加信任其可用性。这有助于提高心理舒适度,促进人与机器人之间的有效协作,尤其是在近距离接触的交互任务中。此外,人形机器人非常适合用于为人类筹划的环境。
2.2 两足活动和导航

        双足活动 双足活动是人形机器人的一个重要特征。因此,在过去的三十年里,双足活动不停是人形机器人范畴一个多产的研究范畴。有爱好的读者可以参阅精彩的综述(其中大部分是最新的)[16, 17, 18]和专著[19, 20]。总之,基于模子的双足活动有了长足的发展,从被动行走[21, 22]到准静态行走[23],再到动态行走[19]。通过基于模子的周期性活动方法[19, 24],人们已经很好地探索和把握了在平面上的双足行走。这些方法还扩展到更敏捷的活动,如跳跃 [25, 26] 和后空翻 [27]。
        对外部扰动和力负荷下的双足活动进行了广泛研究。这些能力为同时进行活动和操作奠基了基础,也是本次调查的重点。为了实现这种能力,人们开发了基于模子的方法,例如 [28, 29, 2, 30] 中的方法。例如,[29] 中先容了一种基于被动性的控制器,具有任务空间动力学特性,外力被整合为描述机器人动力学的广义力的一部分。文献[2]将有效载荷纳入简化的刚体模子,以实现携带时的动态行走。在 [28] 中,任何外力都被纳入 LIP MPC 的一部分。
        除了基于模子的方法,基于学习的方法也成功地解决了双足活动问题[31, 32, 33],尤其是在平坦表面上的周期性活动方面。此外,基于学习的方法在更复杂的环境中也表现出了能力,如跑步[34]、跳跃[35]以及处理非周期性活动,如爬楼梯[36]和跑酷[37]。与基于模子的方法的发展趋势类似,基于学习的方法也进一步扩展了处理外力和有效载荷的能力[38, 39]。
        双足导航: 熟练把握双足活动能力自然有助于提高人形机器人有效导航复杂环境的能力,包罗地形不平和存在动态障碍物的室内和室外区域。导航堆栈通常包罗一个分层结构:全局路径规划器和局部步骤规划器。全局路径规划器[40, 41, 42, 43, 44]通常负责理解整体导航任务,并天生一条能避开障碍物并到达目标位置的路径。另一方面,局部步长规划器(如 [45, 46, 47])则偏重于确定精确的脚部位置,在跟踪全局路径的同时,还能在机器人周围环境中保持双足动态平衡。
        从上述导航堆栈来看,双足导航能力已从平坦地形上的静态避障[48]发展到更具挑战性的场景,包罗通过高度受限空间的活动[43, 49]、在受限环境中避开动态障碍物[50]、在动态社会环境中导航[51]以及穿越崎岖地形[40, 42, 52, 41, 53, 54]。这些方法不停面临的挑战是,它们都是针对特定的利用场景量身定制的,缺乏处理各种不同情况的多功能性。
        固然双足活动和导航已被广泛研究,但由于固有的不确定性,实际世界的部署仍然是一个庞大挑战。不确定性可能来自环境和机器人模子。真实世界的环境有不平坦、多变的地形、动态障碍物和遮挡物,因此很难确保双足导航的安全性和鲁棒性。另一方面,模子的不确定性源于机器人模子的数学表示与物理体系之间的差异。目前大多数导航框架在高层采用减序模子来避免碰撞和完成目标,在低层采用全序模子来跟踪高层指令,这些框架也存在模子不确定性。同时考虑导航任务和全身控制稳定性与准确性的耦合框架仍未得到充分探索。固然从前的工作已经解决了环境不确定性[55]和模子不确定性[56]等各方面的问题,但能够处理实际世界各种不确定性的综合导航堆栈仍然至关重要。
2.3 全身操作
        拟人操作是双臂操作[57]、定位操作和机灵操作[58]的灵感泉源。拟人操作的终极情势是全身操作,指的是利用身材的任何部位对物体进行操作的能力。例如,人类用肘部或臀部撑开一扇门,以方便操作;人类用手掌或拳头取代指尖提供大的力量;人类蜷缩小手指握住一个小物体,同时仍利用其他手指进行操作。相比之下,大多数机器人通常都有预定义的末端执行器,如脚底或指尖,作为唯一允许与世界进行物理交互的部分。全身操作是一个宏大的问题,它与双臂操作、定位操作和机灵操作面临着共同的挑战。这种通用能力还有待开发,但它的出现将预示着机器人操作的突破。
        全身操作的想法最初是在全臂操作界研究的[59]。筹划和制造全臂利用器是为了探索用机器人利用器的所有表面利用物体的好处[60]。这带来了一个独特的挑战,体现在感知、估计、规划和控制等所有体系层面。由于此类接触的数目无穷大,接触模式的组合爆炸[61]和体系的高自由度[57]带来的指数级计算本钱使规划复杂性受到影响。
        为了应对全身操作的挑战,在机器筹划、控制和规划方面取得了许多突破。在机器筹划方面,采用软材料和全身传感技术制造的机器人,如 Punyo [62],以内置方式提供了全身操作能力。
        在控制方面,机器人的调和性和接触丰富的特性需要有力和顺从的控制。传统上,机器臂通过硬编码根据任务要求切换不同的控制计谋 [57]。不同的任务要求,如到达一个点或擦拭一张桌子,需要不同的控制计谋,如纯位置控制或混淆力位置控制。然而,怎样定义和罗列全身操作的控制计谋仍不明确。此外,能够吸取传感器数据、执行状态估计并对每个身材接触进行反应控制的通用控制框架尚未出现 [63]。这种通用框架需要先辈硬件和算法架构的创新,包罗全身传感[64]以及具有顺应性和力控制能力的机器人筹划,以实现反应式操作[65]。
        从规划的角度来看,全身操作的挑战有可能通过人类活动模拟算法得到缓解 [66, 67, 68]。这些研究大多偏重于简朴的操作计谋,如全身抓取和推动。要使机器人能够模拟更复杂的人形全身操作活动,就必须解决人与人形机器人之间的跨形态差距。
        要实现人形机器人的全身操作,所有体系层面的全栈体系集成至关重要。未来,我们有望看到全身传感、顺应性材料和透力机构筹划等方面的硬件进步。算法方面也需要庞大改进。传统的规划和控制方法存在巨大的复杂性问题,而纯粹的学习方法则缺乏对接触做出反应和顺应不同任务的机动性。我们预计,解决方案将是一种综合方法,将两者的上风结合在一起。终极,这可能会使人形机器人具备更复杂的、类似人类的能力,将改进的控制、自顺应学习和综合传感融合在一起。此外,解决定位操作中的核心问题也将为全身操作带来启示,因为这两个范畴都涉及处理不同身材部位上复杂、接触丰富的交互。
2.4 定位操作 Loco-manipulation


   表 I:全身活动和操作分类法                (a) Whole-bodyManipulation                    
(b) Whole-body
Loco-manipulation
                    
(c) Loco-
manipulation
                    
Object movement
(Manipulation)
       ✓✓✓            
Robot self mobility
(Locomotion)
       ✗✓✓            
All surface interaction
(Whole-body)
       ✓✓✗      
       图 3:(a)全身操作,如人类和人形机器人贾斯汀[69]利用所有表面与物体互动。(c) 活动操作涉及同时进行活动和操作,如人类和人形机器人[28]执行的协作任务所示。(b) 全身定位操作是(a)和(c)的交织,如人类和人形机器人 HRP-4[70] 利用足式腿和手臂推动重物。      
        人形机器人的主要特征之一是能够同时执行活动和操作(以下简称为活动操作)任务。正如其名称所示,定位利用既包罗通过操作来移动物体,也包罗通过活动来移动机器人自身。在更一样平常的全身定位操作中,全身指的是利用所有身材表面与环境互动。我们在表 I 中总结了定位操作和全身操作之间的关系。全身操作和定位操作都强调了利用身材接触的重要性。如图 3 所示,定位操作考虑的是机器人在操作物体时自身的活动,而全身操作则强调利用所有可接触到的机器人接触面,例如利用胸部作为额外支持来移动大型物体。
        定位操作能力已在四足机器人上得到广泛展示,特别是那些通过利用四肢作为利用器来实现定位操作能力的机器人[71, 72, 73]。对于具有上半身利用器的四足机器人,基于模子[74, 75]和基于学习的社区[76, 77]广泛采用全身控制来完成拾放任务。
        与四足机器人相比,人形机器人的定位操作尤其具有挑战性。人形机器人在地面上的支持区域较小,质量中央较高,这对动态平衡是个挑战。因此,早期的人形机器人框架偏重于分别控制活动和操作。例如,在活动任务中,大多数研究都限制上半身保持直立,这就将全身问题简化为只考虑低肢的双足活动问题。相反,在大多数桌面操作任务中,人形机器人的下半身保持静止 [78, 79]。在这种情况下,施加在上半身的任何外力都会被视为对足式腿的干扰,而足式腿的目标仅仅是保持平衡。相反,在[1]中,没有对触点进行如许的分类:所有触点都同时有助于完成任务和保持平衡。
        人形机器人的操作需要对整个身材进行整体性和战略性的利用,以探索人形机器人的全部活动能力空间。此外,全身定位操作需要安排所有肢体的接触,以同时实现稳健的活动和安全的物体交互。把握了这项技术,就能完成一系列有用的任务,如开门 [80,81]、推手推车 [82,83]、滚动大型线轴 [84] 或爬梯子 [85,86]。
        讨论: 从规划和控制的角度来看,我们应该为人形机器人筹划一个统一的框架,以同时实现敏捷的活动和机灵的操作,照旧将它们作为分层框架中的独立问题来处理?统一的框架能产生连贯的全身活动,类似于人类移动和操作物体的方式。统一框架可以同时优化活动和操作,顺应更广泛的任务,而无需在不同模式之间切换。考虑到分层框架好像是一种模块化解决方案,因为每一层都可以独立优化,整体框架可以轻松顺应新任务或修改。主要缺点是各层之间缺乏相互认知。例如,如果活动层没有考虑到操作需求(例如,定位机器人以获得最佳触及范围),则整体性能可能达不到最优。
三、触觉传感

        人形机器人的活动和操作涉及与环境和物体的大量物理交互,需要多模态传感来了解环境、跟踪操作物体,以及评估接触怎样影响机器人和物体的平衡。视觉传感器在物体跟踪和同步定位与映射(SLAM)方面表现出了有效性[84],而本体感觉传感器通常结合在接触丰富的任务中估算接触信息[80]。这些感知模式已被广泛应用于现有体系中,文献[12]也对其进行了深入评述。本调查报告将重点关注探索较少但同样重要的传感模式:触觉传感,从而对现有研究进行补充。
        与本体感觉传感器相比[87],触觉传感可模拟人类的触觉,在机器人皮肤的大面积区域提供更准确、更全面的接触信息,并允许机器人通过物理交互感知复杂环境和评估物体属性,尤其是在视觉被遮挡的情况下[88]。此外,触觉传感还可用于估算物体的接触属性,如粗糙度、纹理和重量,以补充传统的视觉信息,如位置、形状和颜色 [89]。将触觉与其他感知模式相结合,可以大大增强人形机器人在解决复杂的定位操作任务时的感知能力。
        许多研究已经开发出基于各种传导原理的触觉传感器,可以感知法向力和切向力、振动、温度和接触前的靠近信息。有关各种传感器筹划的比较研究见 [90、91、92]。本调查报告重点关注其在人形机器人操作中的应用,分为三个方面:(i) 手部触觉传感;(ii) 脚底触觉传感;(iii) 全身触觉传感。下文将回顾每个范畴的最新盼望,强调它们在平衡控制、安排接触和增强交互能力方面的作用,如图 4 所示。
   
     图 4:人形机器人的触觉传感,例如 (a) 全身覆盖人造皮肤的 REEM-C [64](图片版权:A. Eckert),它覆盖了三个身材区域:手、脚和整个身材。(i) 手部触觉传感器:(b) 配备手掌和指尖触觉传感器的 Shadow-Dexterous-Hand [93],(c) 配备 DIGIT 传感器的 Allegro Hand [94],以及 (d) 用于机灵操作的 BioTac [95] 触觉传感器; (ii) 用于(e) 障碍物识别[96]和(f) 地形分类[97]的脚底触觉传感器; (iii) 用于(g) Punyo-1 [62]全身操作和(h) iCub [98] 和 (i) REEM-C [99, 100]全身人机交互的全身触觉传感器。   
3.1 手部触觉传感

        机灵双手上的触觉传感器可提供接触信息,解决物体操作中的困难,如抓取物体的可控性和物体属性估计。在本小节中,我们将对将触觉感知整合到复杂操作任务的控制、规划和学习中的研究进行调查。由于富接触交互的相似性质,手部触觉传感技术也为全身触觉传感和操作提供了名贵的启示,这将在第三章 C 节中讨论。
        为实现抓取目标,感应到的接触力可作为力或阻抗控制回路的实时反馈,以调节所需的物体活动 [101]。此外,基于触觉传感器数据的滑动检测和猜测可用于调解抓取力,从而增强抓取稳定性 [102、103、104]。
        更复杂的手部操作任务需要超越静态物体模子的交互式感知。动态接触信息,包罗实时跟踪物体状态、监控接触稳定性 [105] 和猜测交互效果 [94],即接触力怎样影响物体和机器人的平衡,对于实现复杂的交互活动至关重要。然而,由于多接触动力学的内涵复杂性和接触状态空间维度的增加,基于模子的方法仍然难以在多指操作中达到人类程度的机灵性和多功能性。
        别的,无模子强化学习(RL)已表现出处理复杂接触互动的能力。这些方法将触觉丈量直接整合到状态空间中,以训练端到端计谋 [106, 93]。基于触觉的 RL 面临两个主要挑战:(i) 原始触觉传感器数据的高维输入空间;(ii) 难以准确模拟接触物理学以实现从模拟到真实的转移。为了应对这些挑战,人们探索了降维技术,如频谱聚类、主成分分析 [107] 和自动编码器 [108],而 [93] 则采用深度强化学习 (DRL) 来管理高维输入空间。此外,开发触觉模拟器[109, 110]以提高模拟触觉数据的可访问性,并促进从模拟到真实的零距离传输[111]的积极也在不停增加。
       除了针对特定任务的 RL,人们还在寻求其他学习方法,以制定更具通用性的计谋。[112]采用扩散计谋实现复杂的长视距双手动操作任务,而迩来的工作则将触觉传感与视觉和语言一起整合到基础模子中[113, 114]。固然这些模子仅限于简朴的控制任务,但终极可能会在人形机器人中实现更自然、更多功能的物理交互。
        要推进具有触觉感应功能的仿人形机器人手执行任务,就必须满足精细操作的高机灵性和搬运重物的高负载能力的双重要求。人类的双手可以自然地实现这种平衡,而大多数机器人手则优先考虑机灵性,但支持的有效载荷有限。在短期内,针对特定任务定制的可交换模块化机器手是可行的,但恒久目标应该是兼具这两种能力的统一机器手。一种很有前途的方法是采用多模态传感模块,集成针对不同力程和分辨率进行优化的传感器。传感器筹划、材料科学、传感器融合和高保真模拟方面的进步对这项工作至关重要。
3.2 脚部触觉感应

        除了操作之外,触觉传感也开始在活动问题上受到重视。对于足式活动来说,地面反作用力(GRF)和地形特性的估计对于在各种不平坦的表面上保持全身稳定至关重要。固然视觉和本体感觉传感器可以提供对地形的间接估计,但这些传感模块缺乏准确估计地面反作用力和各种地形属性的能力。脚底的触觉传感具有提供直接、无障碍和精确接触丈量的潜力,但在很大程度上仍未得到充分开发。
        现有研究利用安装在脚踝上的力/扭矩传感器[115, 116]或称重传感器进行点丈量[117]。然而,这些方法只能提供零力矩点的信息,缺乏有关接触片位置、力分布和详细地形属性的准确信息。为了获取这些信息,接触传感阵列 [118] 和多模态传感套件 [119, 97, 120] 已被集成到足式机器人体系中,以获取不同的接触信息。
        迄今为止,用于足式体系的触觉传感器主要应用于单足、四足和六足,可实现地形分类 [121、122、123]、检测接触力和泥土流动 [124]、检测接触角 [125] 和范例(如表面、边沿或无接触) [126、127] 以及估计三维压力分布 [123]等功能。
        由于人形机器人的足式较少,重量较大,在间歇性地面接触过程中会产生较大的冲力和剪切力,因此为人形机器人的足部构建触觉传感器更具挑战性。另一个挑战在于开发能够遭受各种地形的坚固可靠的传感器,这促使研究职员寻求耐用的材料和可靠的机器筹划。此外,人形机器人对体系集成有更严格的要求。例如,成人大小的人形机器人的计算和动力装置可能离脚更远。
        很少有研究为人形机器人制造触觉传感器。这些传感器主要用于地形分类 [128, 97] 和地面坡度识别 [118]。感应到的触觉信息应有助于控制人形机器人的动态,并提高其活动性能。这方面的一项著名研究成果[96]重建了立足点的压力形状,从而能够识别不平地形并实时重新规划脚步。
        为了在田野实现稳健的人形机器人活动,脚部触觉传感的未来发展方向需要解决以下挑战:(i) 怎样准确估计更多的地形属性,如刚度、阻尼、可塑性、异质性和多孔性;(ii) 衡量地形复杂程度的适当指标是什么,如密度、高度、光滑度和粗糙度(例如、 (iii) 怎样将地形触觉传感与本体感觉和视觉感知等其他传统传感模块相结合,共同为智能地形感知活动的姿势、速度和步态提供信息。
3.3 全身触觉传感

        全身触觉传感将上述单体传感扩展到身材的所有部位,使人形机器人不但能通过指尖或脚底,还能通过手臂、足式和躯干与未知环境进行交互。
        通过明确的触觉反馈,iCub 和 REEM-C 等人形机器人实现了全身顺应性 [129,99],从全身区域控制接触力。这种接触感知程度有助于人与机器人进行安全、直观的物理互动,包罗与人共舞 [100]。接触感知还有助于改善非结构化环境中的平衡和避免碰撞。
        大面积触觉传感大大增强了机器人处理大型物体的能力,包罗通过触觉探索和全身操作来识别物体。例如,[130] 使整个上半身覆盖人造皮肤的人形机器人 NAO 能够对重量和质地不同的大型重物进行分类。[88]通过在杂乱的空间中接触物体,同时调节其双臂的接触力,展示了全臂触觉传感技术。131]实现了近距离全身电容传感,使具有工人近距离存在感知能力的共生人形机器人成为可能。在 [132] 中,同样的技术被用于绘制人形机器人物理交互中的语义。传统方法 [133] 优先考虑避免碰撞的轨迹,而 [134] 则摒弃了这种方法,利用触觉反馈来检测和清除可移动的障碍物,从而解决了在可移动物体间导航的问题。此外,通过覆盖在手臂和胸部的触觉传感器,人形机器人 HRP-2 和 Punyo-1 可以利用整个上半身抓住并举起又大又重的箱子 [135, 136] 或各种家用物品 [62]。
        不过,目前基于触觉的全身操作作品仍局限于用上半身抓取或简朴的拾放动作。这是由于全身操作所面临的巨大挑战(如第二章 C 节所述),包罗理解多个触点的复杂接触动力学、处理传感器数据的高维度以及解决模拟与实际之间的差距。
        尽管触觉传感器具有广阔的发展前景,但要实现具有更多动态交互和接触转移的类人机体操作,例如将重量转移到一只手臂以释放另一只手臂来完成开门等任务,需要在感知、规划和控制等所有体系层面进行复杂的整合。触觉感知的一大挑战,也是与规划和控制细密结合的一大障碍,就是难以对接触点进行动态推理。这不但涉及估计接触点和静态物体模子,更关键的是要了解这些接触点和接触点的变革怎样实时影响体系,包罗机器人和物体的平衡。这些信息对于规划者做出明智决策至关重要,在学习框架中,还能提高采样服从。
        结论 触觉感知是推进人形机器人操作的一种尚未充分开发的模式,它为涉及与环境和物体进行复杂交互的任务提供了必要的直接接触信息。固然触觉感知大大增强了人形机器人的任务能力,但要达到人类程度的机灵性和多功能性仍具有挑战性,需要进一步研究动态感知和多模态感知集成,以便在交互过程中做出体系、实时的决策。这包罗根据物体的大小和重量等属性优化全身的接触调度,以及了解在同时进行定位操作时,接触动态怎样影响机器人和物体的平衡。此外,全身触觉体系的筹划应考虑到不同的传感器分辨率和负载要求,例如,手部在执行精细任务时需要更高的分辨率,而身材皮肤可以在较低分辨率下工作,但可以遭受更大的负载。[...] 
四、人形机器人的多接触规划

   
     图 5:人形机器人进行定位操作规划的任务序列表示图,涉及搬运和放置一个箱子以及推一辆小车。所探究的规划技术包罗(a)多接触轨迹规划和(b)全身姿势规划,重点先容了它们的接触和状态规划计谋。此外,还总结了 (i) 基于采样、(ii) 基于最优化和 (iii) 基于学习的分类方法的优缺点。   
        多接触规划仍是机器人技术中最具挑战性的任务之一。详细来说,在人形机器人全身活动操作的背景下,规划者需要解决与环境或物体之间的丰富交互的轨迹问题。特别是,除了机器人的状态轨迹外,规划者还需要在活动操作任务中决定接触位置(或接触位置)、接触模式和接触力。鉴于人形机器人驱动力不足的特性,再加上操作交互动态的参加,保持平衡和利用物体完全依赖于这些接触交互,这已经使多接触规划成为一个具有挑战性的问题。此外,环境和物体的不同物理特性(如刚性或柔性、固定或可移动)使问题更加复杂。
        在过去十年中,该范畴在多接触人形机器人规划方面取得了丰硕成果,在各种活动和操作任务中展现出了巨大潜力 [138, 139, 3, 140]。然而,这些工作需要在规划机器人全身活动轨迹之前预先规划接触模式序列 [141],这就留下了一个悬而未决的问题:怎样以统一的方式同时解决活动和操作接触规划问题与全身轨迹规划问题,即接触-隐式规划(CIP)[142, 143]。这种 CIP 的主要挑战在于高计算负担和识别潜在接触模式序列的组合复杂性。因此,选择合适的方法取决于详细的问题要求,包罗求解时间、求解的数值稳健性、求解的分辨率以及对数值模子的依赖性等因素。
        要为高自由度欠驱动体系选择合适的多接触规划算法,最先辈的方法主要有三类:(i) 搜索、(ii) 优化和 (iii) 学习,如图 5 所示。
4.1 基于搜索的接触规划

        基于搜索的方法采用状态扩展,允许探索配置以建立和突破接触;通常在每个搜索步骤中检查碰撞和活动学可行性。启发式方法可用于基于搜索的方法,以实现高效探索。搜索效果是确保稳定性和任务服从的最优接触模式序列。全身活动可以在搜索过程中进行最优化,以验证候选接触序列的动态可行性 [144],也可以在搜索之后以先接触后活动的方式进行优化 [145]。基于搜索的方法常用于足式机器人活动中的步态规划 [146, 147, 148, 149]。在更复杂的多接触活动操作规划中,[150] 扩展了其能力,实现了一种用于人形机器人抓取接触规划和重新规划的图搜索方法。[151]先容了一种用于多接触活动的接触前活动规划器。
        然而,基于搜索的方法通常难以在在线规划的有限时间预算内覆盖整个探索空间,并可能导致解决方案的高方差。为解决这一问题,[152] 采用了控制变量和重要性采样作为统计方差低沉技术,以加快解决方案的收敛速度。文献[153]仅采用前向路径扩展,并告知可能的路径,以实现可靠的在线动力学活动规划,从而避免了耗时的重新规划。
      
       图 6:同时规划接触模式、接触位置、接触力和全身活动的接触-隐式轨迹优化(CITO)表示图。然而,在线解决人形机器人操作任务中的 CITO 问题仍然是一个挑战。               此外,通过基于搜索的方法得出的效果的可行性保证可以通过姿势最优化(PO)来实现,姿势最优化是人形机器人操作中多接触规划的一个子集。当接触位置、时间和互动方式预先确定时,例如在人形机器人通过点云处理为人提供可行接触位置的场景中[140],这种方法就实用。PO 专注于利用基于优化的技术,在预定义的接触模式下,在特定的时间步骤规划全身姿势和活动学配置。固然 PO 只限于处理离散的关键帧,并不考虑一连动态,但这使其非常适相助为无梯度多接触规划器的后续姿势天生器,从而淘汰搜索过程中的活动学计算负荷。此外,在 PO 过程中还可以参加任务导向目标,例如最大化交互力 [154, 155],以及将操作员的活动有效地重新定位到安全可行的机器人姿势 [156]。Farnioli 等人[157] 给出了一个标称的推动姿势,最优化了所有接触点之间的反作用力分布,以保证重物推动过程中的摩擦约束。基于活动学和质量模子的姿势天生器被应用于 HRP-4 人形机器人,利用倾斜姿势和身材接触来提高重物推动任务中的力[70]。基于 kino 动力学的 PO 方法用于为动态非理解性定位操作天生最优的人形机器人推举姿势 [158]。基于搜索的多接触规划和 PO 通常与在线全身控制搭配利用,可在与环境和物体自顺应交互的同时有效跟踪最优姿势。我们将在第六章详细先容全身控制计谋。
4.2 基于最优化的接触规划

        基于搜索的接触规划主要检查扩展的活动可行性,通常需要额外的底层规划来天生动态可行的活动,而基于最优化的接触规划 [142] 则不同,它提供了同时规划全身活动和接触互动的可能性,如图 6 所示。这种方法将动力学直接集成到接触规划过程中,无需分层结构。通过将接触动力学纳入轨迹优化公式,形成接触-隐式轨迹优化(CITO),使求解器可以一次性确定接触模式、接触力、接触位置和全身活动 [159,160,161]。
        由于问题规模本身较大,CITO 通常依赖于加速计谋,例如利用公道的初始猜测进行热启动以实现快速收敛 [162],以及以分层方式将接触规划和全身活动规划子问题分开 [163]。随着对计算服从的要求越来越高,CITO 通过顺序二次编程(如 [142])、差分动态编程(如 [164])和迭代线性二次调节器(如 [165])提高了计算速度。这些改进乃至使 CITO 能够在模子猜测控制(又称 CI-MPC)框架中用于四足机器人 [166, 167] 和机器臂 [168, 169] 的实时规划。然而,对于人形机器人来说,将 CITO 应用于定位操作还尚未实现。
        将 CITO 作为实时 CI-MPC 移植到人形机器人操作问题中会面临一系列挑战,包罗优化变量的高维空间、复杂/不可分的接触动力学模子、交互动力学的精确建模、初始猜测的解析以及繁琐的调解。固然有关人形机器人 CITO 和 CI-MPC 的文献非常有限,但迩来的研究已经证明了加速此类方法的可行计谋。为了在多接触人形机器人活动天生中实实际时 CITO,[164] 通过引入平滑最大函数来近似接触脉冲,改进了基于时间步进积分器的方法 [170]。[171]在刚性接触模子中参加了动态互补条件,改进了接触隐式人形机器人活动问题的求解时间。文献[166]利用结构开发,通过离线预计算常数项来抵消耗时的线性互补问题(LCP),从而提高了在线计算服从。
        此外,利用并结合基于搜索的方法和基于最优化的方法的上风的潜力在很大程度上仍未得到开发。例如,[172] 通过结合基于图搜索的接触序列天生器和基于神经网络的可捕获性猜测来增强 CITO,从而在人形机器人多接触活动中实现高效、稳健的干扰抑制。为了提高 CITO 的鲁棒性,[173, 174]还表明,考虑优化中的不确定性可得到对地形接触扰动具有鲁棒性的解决方案。
4.3 基于学习的接触规划

        除了基于搜索和最优化的方法外,基于学习的方法在多接触任务规划方面也表现出了巨大的潜力,例如利用强化学习来规划速度指令和接触序列 [175, 176]。这些基于学习的规划器大多是模块化的,因此有可能在底层与基于模子的规划器和控制器形成分层结构。与传统的基于最优化或启发式的方法相比,基于学习的元素提高了多接触规划的计算服从。例如,[177] 学习中央点动力学演化的猜测,以便在以下条件下高效天生接触序列 0.1 秒,允许 300 与传统的最优化方法相比,计算速度提高了 300 倍。
        此外,基于学习的方法还能辅助接触猜测,为实时接触(再)规划提供额外信息。精确的接触通常很难从活动捕获数据中获得,因此直接从数据中学习具有挑战性。为了合成可信的活动,天真的监督学习方法往往会导致物体在没有任何接触的情况下移动,或者猜测的人体与物体之间没有明显的穿透。[178]引入了接触校正,并猜测相对于所猜测接触的活动。[179]将接触猜测和全身活动猜测分开,起首猜测活动物体的接触位置,然后将其作为合成全身活动的约束条件。这些模子有可能作为人形机器人的定位操作规划器。[180]学习从视频场景中找到可负担性(即执行任务的潜在接触点)。这些接触点可用作后续活动规划的启发式方法。
        结论 固然在人形机器人多接触点规划方面已经取得了庞大盼望,但未来的工作应偏重于开发更多综合方法,将基于搜索的方法、基于最优化的方法和基于学习的方法的上风结合起来。详细来说,解决 CIP 的计算复杂性和提高实时性能将是关键所在。未来的研究方向可以探索结合高效接触序列天生/接触动力学、实时应用接触隐式约束以及实现基于学习的接触猜测的混淆方法,以增强复杂机车操作任务的鲁棒性和顺应性。发起读者进一步阅读有关人形机器人多接触规划的调查报告[141]。
五、用于活动操作的模子猜测控制

        基于最优化的模子猜测控制(MPC)在机器人技术范畴取得了长足的进步。MPC 可以机动地定义各种活动目标,具有严谨的数学公式和广泛的求解器,这些上风使其成为活动和操作轨迹规划最常用的方法之一。
        活动操作规划问题的统一优化表述寻求的是未来有限范围内的最优状态轨迹和控制输入。MPC 通常被表述为最优控制问题(OCP):




        其中,
分别是状态、控制输入和约束力的轨迹。ℒ 是本钱函数。动态过程如 (2) 所示。
是其他任务,分别表示为相等和不等式约束。
是要严格执行的整体约束任务(如接触显式公式 [181]),
是单边约束,用于编码集合值任务(如关节限制、与虚构锥体的非滑动接触等)。
        根据对动力学模子 (2)、本钱和约束条件的选择,OCP 方案通常被转化为线性凸 MPC(如 [181, 2])或非线性 MPC(NMPC)(如 [182, 183])。表 LABEL:tab:MPC 总结了迩来基于 MPC 的人形机器人在定位操作任务中的研究成果。
      
       图 7:模子猜测控制在人形机器人中的应用表示图,展示了定位操作中的三大类动力学建模:(i) 简化动力学;(ii) 非线性动力学;(iii) 混淆保真度动力学。该图还强调了在进行定位操作任务时,应考虑与环境和/或物体进行交互式动力学建模。此外,还总结了加快/简化 NMPC 的四种常见方法。       5.1 简化模子

        为了追求活动控制的高频在线规划和轻量级计算,简化动力学模子或降阶模子(ROM)经常被用于 MPC。例如,单刚体模子(SRBM)可通过提供明确的脚位置序列参考进行线性化,并在线性凸 MPC 中进行表述 [184]。利用 SRBM,[181] 实现了麻省理工学院人形机器人的动态特技飞行活动。扩展到人形机器人操作,[2] 通过将交互动力学简化为施加到机器人 CoM 的外部重力,实现了物体承载和崎岖地形的活动。
   表二:人形机器人操作的最新 MPC 方法   Paper RobotModel∗Interaction Modeling MethodLocomotion (L) and Manipulation (M) PlanningMPCFrequencySolvingMethod[185] SRBMOptimizing external wrench(es) at contact(s)Unified20 HzQP[2] SRBMPredefined external forceUnified300 HzQP[186] SRBMNegligible object dynamicsSeparated: L: MPC; M: Keyframe interpolation−QP[187] LIPMNegligible object dynamicsSeparated: L: MPC; M: Retargeting through teleoperation−QP[117] CDOptimizing external wrench(es) at contact(s)UnifiedofflineSQP[28] CDPredefined external wrenchUnified−QP[188] CDOptimizing external wrench(es) at contact(s)Unified5 Hz/offlineSQP[189] CDOptimizing external wrench(es) at contact(s)Unified10 HzInterior-point[183] CDEstimated as external wrench through sensorsUnified5 HzInterior-point[190] WBDOptimizing external wrench(es) at contact(s)Unified100 HzDDP    ∗ SRBM - 单刚体模子;LIPM - 线性倒摆模子;CD - 中央动力学;WBD - 全身动力学。
          另一方面,线性倒立摆模子(LIPM)不停是人形机器人活动[23]和多接触[191]中线性化动力学模子的热门选择。为了进一步扩展崎岖地形行走的能力,棱镜倒立摆模子(PIPM)被用于在非平坦表面上进行 CoM 活动[192, 193]。将 LIPM 扩展到定位操作任务是通过长途操作实现的 [187]。然而,这种模子本质上缺乏处理接触互动和机体操作动态的能力,因此必须采用较低级别的全身控制来完成平衡和操作任务。
5.2 全身模子
        简化动力学模子固然能提高计算服从,但往往缺乏模子精度,而且由于简化假设较高,全身活动规划能力有限。相反,全身模子能更精确地反映机器人的动力学特性,更适合规划多功能活动以及与物体和环境的交互。当约束或本钱函数变得非线性时,NMPC 就会发挥作用,例如,由动力学和全身动力学(WBD)形成的动力学约束。
        在人形机器人活动规划的背景下,动力学约束通常被称为中央动力学(CD)和全身活动学(WBK)约束的组合[188],其中 CD 由体系的总力矩推导而来,可捕获多连杆动力学体系的全身惯性效应[194]。例如,在一次轨迹最优化(TO)中实现 CD 与全身活动学之间的共识,可天生多变的人形机器人活动[188]。
        另一方面,在 MPC 中利用 WBD 已成为迩来流行的方法。关节空间 WBD(如 (5) 所述)能精确地模拟自由浮动的关节型机器人,如人形机器人。WBD 提供了在动力学建模中定义任意和允许接触的机动性,包罗通过操作产生的相互作用力。然而,固有的高非线性和非凸性给基于 WBD 的非线性步伐 (NLP) 带来了巨大的计算负担,使其在实时规划中面临挑战。即使采用 NLP 的加速求解方法(如顺序二次编程法 (SQP)、微分动态编程法 (DDP)),求解的数值精度通常也会受到影响,无法满足实时应用的要求(如 [6])。这种计算问题在高自由度人形机器人执行定位操作任务(如人形机器人有效载荷运输)时尤为突出,因为这些任务需要额外的物体动力学建模、安全关键控制和稳健的轨迹求解。因此,本节的一个重点是讨论在保持求解精度的同时加快 NMPC 速度的不同方法。
5.3 混淆保真度模子

        混淆利用不同抽象程度的多个模子,可以提高性能和服从,而不是在整个 MPC 范围内利用完整的联合空间动力学模子。
        作为混淆模子的一种方法,级联保真度模子(又称分层动力学)利用不同的模子来控制视平线的不同部分 [195, 196, 197]。这些方法通常在近地平线采用高保真模子(如全阶模子),在远地平线采用低保真模子(如简朴模子),如许既能保持近地平线的求解精度,又能利用简朴模子解决较长地平线的近视问题。这种方法可能实用于定位利用任务,因为它可以将交互动力学简化为简朴的外力,或者将物体动力学作为 CD 的一部分强加在远视界中,从而与全动力学模子相比改进实时计算。
        混淆模子的另一种方法是让不同的动力学模子在其程度面之间重叠。在这种情况下,有必要在这些重叠模子之间达成共识。为了解决这种混淆保真度模子的问题,[198] 将包罗两个动力学模子的单个 TO 分解为两个子问题,然后在两个子问题之间交替处理,以达成共识。与此类似,[199] 在 CD 和 WBK 子问题之间交替处理。总的来说,在 MPC 范围内简化模子仍然是一种有效的方法[7]。另一方面,混淆保真度模子表现出卓越的能力,但需要细致考虑组合模子。
5.4 NMPC 加速

        通过结构利用提高 NMPC 速度: NMPC 问题通常涉及复杂的动力学和约束条件,解决起来需要大量计算。利用这些问题中的结构可以显著提高其可解性和服从,例如提取直接相互影响的变量、识别重复和对称结构以及分列块对角结构。直接法是求解 NMPC 最常用的方法之一,它将 NMPC 转化为非线性步伐 (NLP),复杂度为 O(N3),其中 N 是问题的大小 [200]。一些直接方法,如直接多重拍摄和直接拼位,会产生稀疏的 NLP,其计算复杂度可降至 O(N) [201]。解决 NMPC 的另一种方法是单射方法,如 DDP [202] 及其变体迭代线性二次调节器 (iLQR) [203],该方法仅保留动力学的一阶导数近似,计算量在程度期内呈线性增长 [204]。通过超图方法适当利用稀疏性结构,[205] 表现非线性求解器的计算服从有所提高。迩来,一种鲁棒数值求解器 fatrop [206],通过采用结构开发线性求解器,以直接多重射击的方式高效求解受限 OCP 问题。在 NMPC 问题中,fatrop 的求解时间与 acados SQP 求解器相当,同时还保持了与基于内点法的 ipopt 求解器相似的数值鲁棒性。此外,AdaptiveNLP 利用之前的 NLP 结构,大大淘汰了构建当前 NLP 的开销和更新时间 [207]。由于人形机器人的大多数不等式约束(如关节状态、致动和控制障碍功能)都是静态的,因此用这种记忆感知和自顺应求解器提供较小的不等式约束集,有可能加快人形机器人的操作 NMPC。作为一种日益流行的方法,结构利用具有巨大的潜力,因为它在求解的数值稳健性方面的权衡最小。
        通过线性化提高 NMPC 速度: 解决 NMPC 带来的计算负担的另一种方法是一连线性化,即在每个时间步围绕标称体系状态和控制输入进行线性化。线性化后的动力学变得片断仿射,可以用一个大型、稀疏的二次方程式步伐(QP)来表述,并可在线求解[208, 209]。为了实现基于优化的高效规划,GPU 加速的 QP 求解器 ReLU-QP [210] 将人形机器人平衡任务中的 MPC 实时控制频率从原来的 65 Hz 提高到 1300 Hz 以上。然而,与利用精确的非线性模子相比,一连线性化断送了模子的保真度,不可避免地会导致活动毛病。在实践中,以模子精度换取速度往往是首选计谋,因为控制器可能无法高精度地跟踪精确的全阶轨迹,因此追求由全阶非线性模子天生的精确轨迹实际上并无益处。
        通过热启动提高 NMPC 速度: 实时性要求促使许多研究职员寻求更好的初始化方法。一种简朴而有效的方法是利用上一次迭代的解进行热启动。固然这种方法有望减轻计算负担,但它在很大程度上依赖于先前解决方案的质量,并且对跨时间步的动态变革或任务约束条件非常敏感,而这在接触丰富的多任务机车操作中很常见。另一种常见方法是将计算负担从在线卸载到离线,例如步态库[211]。它可被视为一种特殊的热启动技术,只需在步态间进行廉价的在线插值,即可获得近似最优的全身轨迹。同样,[190] 利用活动记忆来热启动 MPC,克服了初始条件的敏感性。从记忆中进行适当的初始化通常只需要频频迭代就能达到收敛,从而实现具有全身动力学的在线 NMPC。将离线记忆与在线规划相结合是一个很有前景的研究方向。然而,关键的挑战在于怎样在有限的存储空间内管理大量轨迹。在第 VII-E 章中,我们将讨论来自学习范畴的解决方案:学习紧凑模子,从大规模离线轨迹中提炼出紧凑模子。
        通过采样提高 NMPC 速度: 基于采样的实时规划,如模子猜测路径积分(MPPI)控制 [212],是一种简朴有效的方案。然而,将 MPPI 扩展到高维定位操作任务会带来巨大的计算挑战,尤其是在接触隐式设置中。MPPI 迩来的成功主要得益于两项技术:缩小搜索空间和利用今世模拟器的并行化。为了限制搜索空间,研究职员利用次优规划器来引导搜索,应用约束条件,并采用样条控制点来淘汰规划结点的数目 [213]。此外,采样速度的提高也有助于实时规划。例如,MuJuCo MPC(MJPC)[214] 在多核 CPU 上利用了 MuJuCo [215] 已建立的并行化能力。此外,今世模拟器(如 IssacLab [216] 和 MuJuCo)可在 GPU 上推出数千个样本,从而为稳健控制提供额外的随机化 [217]。
      
       图 8:基于模子的操作技能。(a) 从椅子上站起来[138]。(b) 多接触平衡 [3]。(c) 穿过门[218]。(d) 搬运大梁 [117]。(e) 协作搬运 [28]。(f) 卷轴[82]。(g) 箱式机车操作 [219]。      
5.5 活动操作的环境和物体交互模子

        在本小节中,我们将对活动操作任务的活动规划算法进行研究,这些算法涉及与环境和/或具有较大重量和尺寸的物体的交互,特别是在活动操作 MPC 的背景下。假定接触模式序列是通过第四节中概述的接触规划方法定义的,那么活动操作 MPC 算法就会找到一条可行的轨迹,在满足动力学约束和接触稳定性约束的同时,在一个程度期内达到一个可行的状态。现有的活动操作 MPC 算法区分了与固定环境和被操作物体的交互。
5.5.1 与静态环境互动

        环境(包罗地面和墙壁等静态表面)提供的接触力有助于增强机器人的稳定性,并使机器人能够执行行走和推动等交互任务。图 8 (a) 和 (b) 是静态环境的一个示例。由于环境是静态的,机器人在规划过程中无需考虑环境的状态或稳定性。相反,机器人通常需要处理非循环接触模式和特定环境几何形状下的非共面接触。这一具有挑战性的问题被称为多接触规划(MCP)[141, 220, 86]。MCP 是一个广泛研究的范畴,涉及接触规划和活动规划。由于接触规划已在第四节中讨论过,在本小节中,我们将重点讨论 MCP 的活动规划方面,特别是实时多接触 MPC。给定一系列接触模式,MCP 的目的是找到所有接触的可行活动和接触扳手。
        人形机器人的多触点 MPC 可通过基于最优化的方法来解决 [188, 189]。在这些方法中,中央动力学(CD)是最常用的模子,因为它能精确表示接触力和体系的中央动量。尽管该模子很精确,但 CD 包罗一个非线性项,该非线性项来自状态(CoM 位置)和控制(接触扳手)之间的交织积,给轨迹最优化带来了挑战。利用多触点 MPC 作为活动规划技术的动态活动能力也很有限,因为它将手臂和足式统一视为一样平常触点,与线性倒摆模子(LIPM)等纯活动模子相比,处理频繁触点切换的服从较低。固然 MPC 能够规划与机器人任何表面的接触,但规划接触力的正则化通常需要精确的关节扭矩感应或全身触觉感应(第 III-C 节),这在丰富和安全的环境交互方面仍有很大的探索空间和巨大潜力。
5.5.2 与操尴尬刁难象的交互建模

        在人形机器人活动操作 MPC 的背景下,被操作物体的建模计谋与接触规划一样,都是一个重要的方面,也是一个正在进行的研究范畴。如图 8(c-g)所示,物体可以是自由浮动体(如箱子)、固定基座的铰接机构(如门或抽屉)或驱动关节(如另一个机器人)[221]。与静态环境的交互不同,物体施加的接触力不但取决于机器人的关节扭矩,还取决于物体的质量和惯性。因此,在活动操作任务中与物体的交互具有很大的复杂性。规划此类任务通常需要准确了解物体的状态和物理特性,尤其是在处理重型、不规则或动态移动的物体时。
        为了克服未知物体状态和属性带来的挑战,人们提出了自顺应控制方案和在线估计技术,以提高鲁棒性,补偿动态效应和变革的外部负载。例如,[222] 将物体的动态效应作为残余动态进行补偿,从而避免了大量预定义物体参数的需要。[223] 在线估计机器人的反射惯性,以补偿不停变革的外部负载。[224]估计物体的质量,为笨重的物体选择最优的全身操作计谋。此外,为了解决物体状态反馈问题,有人提出了广角相机密集跟踪来资助跟踪大型物体 [84]。然而,应用于基于 MPC 的方法会带来额外的挑战,包罗预览视野中物体动态补偿的猜测、物体活动演化的猜测,以及由于此类整合而增加的在线计算负荷密度。文献[225]迈出了第一步,即通过监督学习来估计和简化中央动量的演变,从而在人形机器人活动中保持基于凸CD的MPC公式。
        鉴于任务的多样性,为机器人-物体体系创建统一模子至关重要。我们先容了两种将物体动力学纳入基于 MPC 的规划过程的常用方法 [191]。
        第一种方法将操尴尬刁难象建模为外部扳手,并规划控制输入以对其进行补偿 [70, 2, 189]。这种方法提供了一种机动的解决方案,因为无论 MPC 模子的线性怎样,它都能很好地与 MPC 集成,将所有触点视为外部扳手。不过,接触扳手需要预先定义,例如,补偿物体重力或施加用户指定的推力。为摆荡棒球棒等动态任务获取精确的接触扳手本身就具有挑战性,尤其是考虑到它们在 MPC 中的整个猜测范围内的演变时。静态/准静态假设通常会忽略物体的动态特性,从而导致活动操作的动态性较差。另一个需要注意的方面是,接触扳手可以应用于接触位置 [82] 或机器人的 CoM [28, 2]。在前一种情况下,物体会影响接触扳手的自我平衡和物体操作。在后一种设置中,物体只影响负责平衡的接触扳手,而用于物体操作的接触扳手需要额外的调节。例如,[2] 中的活动操作 MPC 方法会根据施加在机器人 CoM 上的物体重量调解脚部接触扳手,并通过单独的控制器通过手部接触扳手额外调节物体位置。与 MCP 不同,这种活动操作 MPC 优先考虑的是移动而不是操作,通常采用专门的活动模子,如线性倒摆模子(LIPM)。这些模子为双足活动引入了额外的假设条件,例如为活动分配脚接触,为操作分配手接触,保持身材高度,以及保持角动量等,这使得它们在在线 MPC 设置中的计算服从较高,但通用性较差。
        第二种规划方法将物体的动态直采取入机器人的动态活动方程,创建了统一的机器人-物体动态体系 [191, 158]。这种方法消除了第一种方法中的静态/准静态假设,并利用 MPC 中的时变机器人-物体动力学来实现更具动态和自顺应的活动操作活动。在此类规划问题中,交互扳手通常被视为控制变量,交互扳手上的接触稳定性约束被逼迫执行,以将物体安全地固定在机器人上。规划器为机器人和物体天生组合活动,从而实现它们的抱负状态。与将物体建模为外部扳手相比,这种方法需要完全了解物体的状态,从传感角度来看更具挑战性。
5.5.3 与动态环境或可变形物体交互

        动态变革的环境,如具有活动表面 [226, 227] 或与物理人交互 [28]的环境,给活动操作规划和控制带来了额外的挑战。与动态物体操作问题类似,机器人与动态环境之间的交互模子也是时变的。固然我们可以将物体的动态模子与机器人模子结合起来,形成统一的动态模子,但在大多数情况下,对环境的动态模子进行数值模拟是不切实际的。因此,在 MPC 设置中,规划器可能需要传感器反馈来猜测环境的活动,并自顺应地重新规划活动操作 [226, 228]。例如,与有人类到场的环境进行交互时,需要猜测人类的意图,以进行协同操作,如提升有效载荷[28];拜见迩来在人与人形机器人直接物理交互方面取得的更具挑战性的成绩[229]。对于此类任务,交互力是传达意图的重要方式,可以通过丈量力反馈信号来触发机器人活动。然而,对于 MPC 来说,无法很好地猜测在当前时间步之后这种感应力的演变,这表明需要进一步的静态/准静态假设。否则,机器人只能将动态环境视为干扰,并通过被动控制(如全身控制)加以抵消。鉴于应对不停变革的环境所面临的挑战,动态环境中的活动操作在很大程度上尚未得到探索。
        除了具有规则几何形状的刚性物体外,可变形物体在我们的实际世界中也无处不在,例如护理或家务场景中的物体。这些物体的动力学建模需要深入了解其物理特性和活动,如柔韧性、弹性和受力变形。因此,针对特定问题和应用的简化往往是必要的[230, 231]。例如,为了规划对可变形皮带的操作,[232] 通过只表示皮带尾部在二维平面上的活动来简化皮带的活动。然而,要充分利用物体的变形特性进行有效的活动操作,将精确的可变形物体[233]集成到机器人模子中是至关重要的。固然这一范畴在人形机器人活动操作方面的探索相对不足,但这种集成为基本的拾放操作以外的操作提供了重要机会,使机器人能够处理更复杂、更精细的任务。
        结论 基于梯度数值优化的活动规划功能先辈,MPC 在人形机器人活动操作中越来越受欢迎,在近年来的文献中展示了众多变革。这种方法的精髓在于对动力学模子、约束条件、任务定义和计算要求做出公道的选择。这些选择往往需要专家筹划和调解,以权衡任务的通用性、解决方案的可行性和最优性。通过确定活动操作任务的计算强度和适当的动力学表示,可以在 MPC 中引入简化模子和宽松约束,从而抵消计算负荷。此外,适当选择求解器也能大大提高 MPC 服从,这一不停发展的范畴为求解器层面和问题表述层面的创新提供了研究机会。如需进一步阅读,我们推荐有关足式机器人和人形机器人 MPC 的研究 [13]。此外,由于与环境和物体进行动态交互的复杂性,活动操作任务面临着更多挑战,这就为怎样在 MPC 设置中根据详细任务要求有效选择和制定交互动力学留下了悬而未决的问题。












 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

河曲智叟

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表