DexWild：田野机器人策略的灵巧人机交互

乌市泽哥 · 6 天前

25年5月来自 CMU 的论文“DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies”。
大规模、多样化的机器人数据集已成为将灵巧利用策略泛化到新环境的一条有效途径，但获取此类数据集面临诸多寻衅。固然遥利用可以提供高保真度的数据集，但其高昂的本钱限定了其可扩展性。如果人们可以或许像在一样平常生活中一样用自己的双手来收集数据，情况会怎样？在 DexWild 中，一个由多元化数据收集职员构成的团队用双手收集了跨越众多环境和物体的数小时交互数据。为了记录这些数据，创建 DexWild 系统，这是一款低本钱、移动且易于使用的设备。DexWild 学习框架基于人类和机器人的演示进行协同训练，与单独训练每个数据集相比，其性能有所提拔。这种组合可以或许生成强盛的机器人策略，使其可以或许以最少的额外机器人特定命据泛化到新的环境、任务和具身中。

模拟学习的泛化

机器人利用的泛化策略学习取得了快速进展，这重要得益于视觉表征学习和大规模数据集模拟学习的进步。在视觉方面，具身表征学习受益于以自我为中央的数据集，比方 Ego4D [15] 和 EPIC-KITCHENS [10]，迩来的方法 [27, 11, 47, 39] 利用这些数据集来训练可扩展的视觉编码器。然而，这些方法仍然需要大量的卑鄙机器人演示来训练控制策略。
与此同时，仅限机器人的演示数据集在规模和多样性方面也显著增长 [21, 8, 54]，这推动了行为克隆的研究，并促成了泛化策略架构的构建 [49, 8, 22]。固然这些策略在许多任务中体现出色，但它们通常难以泛化到未知的目标类别、场景布局或环境条件 [25]。这种鲁棒性的缺乏仍然是当前系统的一个关键限定。
机器人利用的数据生成

降服机器人数据瓶颈已成为机器人学习的核心寻衅。一种方法是利用互联网视频提取动作信息。一些研究，比方 VideoDex [40] 和 HOP [42]，利用大规模真人视频通过重定向学习动作先验，并以此引导策略训练。其他研究，比方 LAPA [57]，则使用未标志的视频生成可用于卑鄙任务的潜动作表征。固然这些基于视频的方案拥有丰富的视觉多样性，但它们通常无法捕获现实世界利用所需的准确、低级活动指令。
模拟可以或许快速生成大规模动作数据。然而，为许多任务创建多样化、逼真的环境并解决模拟与现实之间的差距是一项寻衅。近期在将利用策略从模拟 [43] 迁移方面取得的乐成仅限于桌面环境，缺乏在差别环境中部署所需的泛化能力。
在实体机器人上进行直接遥利用可以得到最高的保真度，但扩展性较差。迩来的研究已在固定场景中展现出令人印象深刻的机动性和高效的学习能力 [59, 56, 41, 19]，然而，收集富足多的演示样本以推广到差别场景的本钱很快就会变得高昂。
迩来，越来越多的研究利用有针对性地收集的高质量人体具身数据，而无需繁琐的遥利用。
人体动作追踪系统

为了获取高质量的人体活动数据，准确的手部和腕部追踪至关重要。为了规避手势估计的复杂性，一些研究为用户配备手持式机器人夹持器 [7, 12, 46]。固然这种方法简化重定向利用，但它将用户限定在机器人夹持器的特定形态上，从而限定捕获行为的多样性。别的，许多此类系统依靠于基于 SLAM 的腕部追踪，这在特性稀疏的环境中或出现遮挡时可能会失效 [7, 23]——比方在打开抽屉或使用工具时。
其他方法旨在直接根据视觉输入估计手部和腕部姿势 [29, 35, 5, 45, 28, 20, 32]。这些方法易于部署且无需仪器，但在遮挡（利用过程中不可避免的情况）的情况下，其性能会显著降落。其他腕部追踪策略，比方基于 IMU 的 [9, 50] 和由外向内的光学系统 [30]，也各有范围性：IMU 轻巧便携但容易漂移；光学系统精准，但需要繁琐的标定和受控环境。
DexWild 利用无需标定的 Aruco 追踪技能，显著进步了可靠性并最大限度地收缩了设置时间，由于它只需要一个单目摄像头。
固然基于视觉的方法通常尝试同时追踪腕部和手指，但许多近期系统将两者分离以进步准确性。活动外骨骼手套可以提供高保真关节测量甚至触觉反馈 [58]，但体积庞大，长期佩戴不舒适。
相反，DexWild 与先前的研究 [41, 55] 一样，接纳了一种基于轻量级手套的解决方案，该方案利用电磁场 (EMF) 感应来估计指尖位置。这可以实现准确、实时的手部追踪，并且对遮挡具有鲁棒性，并且可以轻松地重定位到各种机械手上。

许多人认为，利用海量高质量数据集是创建具有泛化能力的灵巧机器人策略的关键 [8, 49, 40, 11]。DexWild 系统是一个用户友好、高保真度的平台，用于高效地收集各种真实世界中的自然人手演示。与传统的基于遥利用方法相比，DexWild 系统的数据收罗速度进步了 4.6 倍。
在此系统的基础上，DexWild，一个模拟学习框架，基于大规模 DexWild 系统的人类演示和少量机器人演示进行协同训练。这种方法将人类交互的多样性和丰富性与机器人实例的踏实基础相联合，使策略可以或许妥当地泛化到新目标、环境和实例中。如图展示DexWild 方法：

数据收集系统

一个可扩展的灵巧机器人学习数据收集系统必须可以或许在各种环境中进行自然、高效和高保真度的收集。为此，DexWild-System，作为一款便携、用户友好的系统，只需少少的设置和训练即可捕获人类的灵巧行为。以往的田野数据收集方法通常依靠于带传感器的抓取器，而本文目标是创建一个更直观的硬件界面，以真实还原人类与世界自然互动的方式。从精致的精致动作到强盛的抓握，人类在各种操控任务中都拥有灵巧的操控能力。通过学习这种内在能力，DexWild-System 可以或许捕获丰富多样的数据，实用于各种机器人应用场景。
DexWild-System 的设计围绕三个核心目标：
• 便携性：无需复杂的标定步调，即可在差别环境中快速、大规模地收集数据。
• 高保真度：准确捕获精致的手部与环境交互，这对于训练精准的灵巧策略至关重要。
• 不依靠具体形态：可以或许从人类演示无缝重定向到各种机器人手。
可移植性：

为了在各种现实环境中收集数据，系统必须便携、稳定且易于任何人使用。在设计 DexWild 系统时秉持以下目标：它重量轻、易于携带，并且只需几分钟即可完成设置，从而可以或许在多个地点进行可扩展的数据收集。
如图所示，DexWild 系统仅包含三个组件：用于腕部姿势估计的单追踪摄像头、用于板载数据收罗的电池供电微型 PC，以及由动作捕获手套和同步掌上摄像头构成的定制传感器盒。

与通常依靠于需要标定、复杂的、由外向内追踪设置的传统动作捕获系统 [60, 13, 4, 52] 差别，DexWild 系统真正实现了无需标定，使实在用于任何场景，纵然未经培训的利用员也能轻松利用。
这是通过接纳相对状态-动作表示来实现的，其中每个状态和动作都被捕获为与前一时间步的姿势的相对差别。这消除了对全局坐标系的任何需求，答应跟踪摄像头自由放置——无论是以自我为中央还是以外部为中央。别的，掌上摄像头在人类和机器人的实体上都牢固地安装在固定位置。这确保了视觉观察在差别域中保持一致，无需在部署时进行进一步标定。外部跟踪摄像头在精心定位后，还可以捕获有助于学习妥当策略的补充环境信息。
高保真度：

为了学习灵巧的行为，必须在训练数据集中捕获精致、渺小的动作。尽管 DexWild 系统仅包含少量便携式组件，但在数据保真度方面毫不妥协。系统旨在精准捕获手部和腕部动作，并提供高质量的视觉观测。
对于腕部和手部追踪，纯视觉方法易于设置。然而，它们在便携性方面的优势通常捐躯了准确性和鲁棒性——导致姿势估计噪声较大，从而低落策略学习的结果 [41, 14, 32, 7]。
对于手部姿势估计，用动作捕获手套，它具有高精度、低延伸和抗遮挡鲁棒性 [41]。对于腕部追踪，在手套上安装 ArUco 标志点，并使用外部摄像头进行追踪。这避免了基于 SLAM 腕部追踪的脆弱性，这种追踪在特性稀疏的环境中或在遮挡严峻的任务（比方打开抽屉）中经常失败。
与许多依靠于以自我为中央或远间隔外部摄像头的数据集差别，在此将两个全局快门摄像头直接放置在手掌上。如上图所示，这些立体双目摄像头可以或许捕获到细致的局部交互视图，同时最大水平地减少活动模糊并拥有宽广的视野。这种宽广的视野使得策略可以或许仅使用板载手掌摄像头进行利用，而无需依靠任何静态视点。
与具身无关：

为了确保 DexWild 数据的长期性和多功能性，在此目标是使其可以或许在差别的机器人具体形态中保持可用性——纵然硬件平台不断发展。实现这一目标需要仔细和谐人机之间的观察空间和动作空间。
首先要标准化观察空间。固然掌上摄像头拥有广阔的视野，但特意将它们定位在重要聚焦于环境的位置，从而最大限度地低落手部自己的可见性。重要的是，摄像头在人手和机器人手上的放置位置是镜像的。如图所示，这种设计在差别具身中产生视觉上一致的观察结果，从而使策略可以或许学习到一种可在人类和机器人域泛化的共享视觉表征。

对于动作空间对齐，基于先前研究 [17, 44] 的洞见，优化机器人手的活动学，使其与人类演示中观察到的指尖位置相匹配。这种方法具有通用性，实用于任何机器人手的具身。它在差别用户中使用固定的超参数，并且对手部尺寸的变革具有鲁棒性，无需针对特定用户进行调解。
使用自然人手收集数据除了易于使用之外，还具有其他优势。人类演示者手部形态的多样性带来了有用的变异，这有助于策略学习更具泛化的抓取策略——鉴于人类和机器人手部活动学之间固有的不匹配，这一点尤为重要。
总而言之，DexWild 是一款便携式、高质量、以人为本的系统，任何利用员都可以佩戴，在现实环境中收集人体数据。接下来，将解释怎样利用 DexWild 收集的数据，使灵巧策略可以或许泛化到自然场景中。
训练数据模态与预处理

灵巧利用的泛化需要规模化和具体化基础。为此，DexWild 收集两个互补的数据集：一个使用 DexWild 系统的大规模人类演示数据集 D_H，以及一个规模较小的遥控机器人数据集 D_R。
人类数据具有广泛的任务多样性，并且在现实环境中易于收集，但缺乏具体化一致性。机器人数据固然规模有限，但却为机器人的动作和观察空间提供了至关重要的基础。为了充分利用两者的优势，用一个批次中固定比例的人类和机器人数据 (w_h, w_r) 共同训练策略——在多样性和具身基础之间取得均衡，从而在部署期间实现妥当的泛化。
在每次训练迭代中，根据共同训练权重分别从 D_H 和 D_R 中采样一个包含转换 x_h 和 x_r 的批次。时间步 i 的每个转换 x_i 包含：
• 观测值 o_i：给定时间步的观测值包含当前时间步捕获的两个同步手掌摄像头图像 I_pinky 和 I_thumb，以及一系列汗青状态，这些状态以给定时间范围 H 的步长采样，包含 {∆p_i, ∆p_i−step, …, ∆p_i−H}。每个 ∆p 包含相对的汗青末端执行器位置。
• 动作 a_i:i+n−1：大小为 n 的动作块，包含动作 {a_i, a_i+1, …, a_i+n−1}，其中 a_i 是当前时间步的动作。具体而言，a_i 是一个 26 维向量，包含：
– a_arm：一个 9 维向量，形貌末端执行器相对位置（3D）和方向（6D）。
– a_hand：一个 17 维向量，形貌机器人手的手指关节位置目标。
对于双手任务，观察和动作空间会被复制，并将双手间的姿势附加到观察结果中，以促进和谐。
固然重定向步调将人类和机器人的轨迹带入共享的动作空间，但仍需要一些额外的步骤来使人类和机器人的数据集兼容以进行联合训练：
• 动作规范化：对人类和机器人数据的动作分别进行规范化，以解决固有的分布不匹配题目。
• 演示过滤：由于人类演示是由未经训练的利用员在不受控制的环境中收集的，应用基于启发式的过滤流程来自动检测并移除低质量或无效的轨迹。此过滤步骤无需人工标志即可显著进步数据集质量。
策略训练

通过精心设计硬件、观察和动作接口，可以或许使用简朴的行为克隆 (BC) 目标 [31, 37, 36] 来训练灵巧机器人策略。为了有效地从多模态、多样化的数据中学习，训练流程利用大规模预训练的视觉编码器，并在差别的策略架构中展现出强盛的性能。
视觉编码器：在 DexWild 数据上进行训练，使策略可以或许应对场景、物体和光照等显著的视觉多样性，这需要一个可以或许精良泛化到这种多样性的编码器。为了解决这个题目，接纳预训练的 Vision Transformer (ViT) 主干网络，该网络在田野操控任务中体现出优于基于 ResNet 编码器的性能 [16, 23]。预训练的 ViT，尤其是在大型互联网规模数据集上训练的 ViT，在提取丰富、可迁移的特性方面尤为有效 [27, 33, 47, 11]，因此非常适合本文的设置。
策略类别：固然迩来已经提出几种模拟学习架构 [59, 6]，但接纳基于扩散的策略。扩散模子特别适合灵巧利用，由于它们比高斯混合模子 (GMM) 或 Transformer 等替换方案更有效地捕获多模态动作分布。这种能力在 DexWild 中变得越来越重要，由于 DexWild 会从多个使用差别策略的人类身上收集演示，从而产生固有的多模态行为。随着数据集规模的扩大，对这种可变性进行建模对于妥当的策略学习至关重要。具体而言，DexWild 使用扩散 U-Net 模子 [6] 来生成动作块。
具体来说，训练过程概述在算法 1 中。

训练框架的一个重要发现是，调解人机数据权重会显著影响现实世界的体现。

实验的硬件系统部署于 10 位未经训练的用户，用于收集各种真实环境中的数据。这些环境包括室内和室外、白天和夜晚、拥挤的自助餐厅和安静的学习区，其中摆放着各种桌子、物品和灯光设置。收集者自己的手掌大小和演示风格也各不相同，这可以或许从各种各样的环境和互动中学习。
通过收集工作构建两个数据集：D_H（人工收集数据）和 D_R（机器人收集数据）。人工数据集 D_H 包含五项任务的 9,290 个演示：喷雾瓶任务和玩具清理任务分别包含来自 30 个差别环境的 3,000 个演示；倾倒任务包含来自 6 个环境的 621 条轨迹；花店任务包含来自 15 个环境的 1,545 个演示；折叠衣服任务包含来自 12 个环境的 1,124 个演示。
机器人数据集 D_R 包含 1,395 个演示：388 个喷雾瓶演示、370 个玩具清理演示、111 个倾倒演示、236 个花店演示以及 290 个折叠衣服演示。机器人数据由 xArm 和 LEAP 机械手 V2 Advanced 收集。
训练和测试目标如图所示：

DexWild 系统包含三个核心组件：腕式追踪摄像头、用于机载数据收罗的电池供电 mini 电脑，以及一个带有动作捕获手套和掌上摄像头的定制传感器盒。在新地点，用户只需佩戴动作捕获手套，并使用提供的移动电源为迷你电脑供电即可。对于以自我为中央的追踪，头带可固定追踪摄像头；对于以外部为中央的追踪，提供可折叠三脚架。启动后，用户启动定制的桌面应用步调，并通过蓝牙遥控器或脚踏板控制录制。用户界面（如图所示）体现传感器状态、SLAM 录制和数据收罗指示灯，以及用于查看追踪摄像头反馈和删除最后一集的按钮。收罗职员每个地点收集 100 集数据。一天结束后，会将数据上传到远程机器进行处理。

每个 episode 都存储在其自己的文件夹中，子文件夹用于组织各个动作和观察结果。来自 Zed Mini 相机的 SVO 记录（用于 SLAM 和腕部姿势追踪）单独生存，每个文件涵盖五个episodes。为了开始数据处理，用 Zed SDK 解码这些 SVO 文件，重建相机的活动，并使用左图和立体深度数据执行 ArUco 立方体追踪和腕部姿势估计。然后，应用过滤流程来评估追踪质量；如果高出 75% 的持续时间内无法可靠地追踪腕部姿势，则抛弃该episode。接下来，盘算动作分布，并裁剪第 2 和第 97 个百分位数之外的非常值。用插值和高斯滤波来平滑轨迹，以确保流畅的活动。然后，按照 [41] 中的方法，使用 PyBullet 中的逆活动学重定位手部动作。为了进步效率，整个流程使用 Ray 并行化。
行为克隆策略以 RGB 图像和相对状态汗青作为输入。通过 ViT 获取图像观测的tokens，并通过线性层获取相对状态的tokens。ViT 的权重由 [11] 中的 Soup 1M 模子初始化。其包含相对状态，由于它能显著进步策略的鲁棒性，并使活动更加流畅。特别是对于双手利用任务，包含双手间姿势（左手相对于右手的姿势）能显著进步诸如花店之类的任务的乐成率。将 Action Chunking Transformer [59] 和 Diffusion U-Net [6] 实现为策略类，它们输出一系列动作。网络输出的动作由相对末端执行器动作和绝对手部关节角度构成。
为了确保策略的平滑度和安全性，接纳 Isaac Lab [26] 中实现的黎曼活动策略 (RMP) [34]，其中 RMP 根据末端执行器目标动态生成关节空间目标。 RMP 还具有实时防碰撞功能，可防止机械臂与设定的桌面高度发生自碰撞。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

		自动登录	找回密码
密码			立即注册

DexWild：田野机器人策略的灵巧人机交互

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

DexWild：田野机器人策略的灵巧人机交互

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

登录参与点评抽奖加入IT实名职场社区