NeurIPS-2024 | 具身智能怎样明白空间关系？SpatialRGPT：视觉语言模型中的 ...

道家人 · 7 天前

作者：An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu
单元：加州大学圣地亚哥分校，NVIDIA
标题：SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models
原文链接：https://www.anjiecheng.me/assets/SpatialRGPT/Spatial_RGPT.pdf
项目主页：https://www.anjiecheng.me/SpatialRGPT
代码链接：https://github.com/AnjieCheng/SpatialRGPT

主要贡献

提出 SpatialRGPT 框架：通过 地区表现模块 和 深度信息插件，加强 VLM 对局部地区（如物体、位置）和三维几何的推理能力，实现深度信息的灵活融合而无需完全重构模型。
构建OSD数据集：从单张图像生成带 3D 场景图 的大规模数据集，包含物体检测、深度估计和空间关系标注，支持练习地区感知的 VLM。
推出 SpatialRGPT-Bench 基准：首个多环境（室表里、虚拟场景）的三维空间认知评测基准，提供细粒度标注和量化指标，促进公平性评估。
推动鄙俚应用：呆板人密集奖励标注：通过地区界限框引导模型猜测动作效果。独立复杂推理：无需 LLM 协助，直接回答多跳空间题目。

研究背景

研究题目

论文主要解决的题目是视觉语言模型（VLMs）在空间推理方面的能力有限题目，尤其是在明白和推理复杂的空间关系方面。
研究难点

该题目的研究难点包罗：

区分简朴的空间概念（如“左”和“右”、“上”和“下”）以及更复杂的关系（如“背面”和“前面”、“里面”和“外面”、“近”和“远”）；
仅依靠RGB像素数据无法准确感知空间关系，需要融入深度信息。

相干工作

该题目的研究相干工作包罗：

近来的一些工作通过引入全面的数据生成流程高VLMs的空间推理能力，但这些方法依靠于大规模的练习数据和复杂的场景构建过程。
现有的VLMs在处理地区信息和深度信息方面存在范围性。

方法概述

从单张二维图像构建三维场景图

图像过滤
- 移除不符合的图像（如模糊、低质量图像），详细标准见附录F.1。
开放词汇检测与分割：生成高精度掩码以构建准确三维界限框。
- 使用开放词汇图像标注模型（如GroundingDino）识别图像中所有对象的类别标签。
- 通过二维检测器（GroundingDino）生成对象界限框。
- 应用分割模型将界限框细化为像素级掩码，避免依靠多边形或压缩掩码标注。
深度估计：从单张图像规复 metric 深度图，解决尺度模糊题目。
- 接纳 Metric3Dv2，其通过团结优化深度和外貌法线猜测，镌汰对特定数据集（如KITTI、NYU）的过拟合。
- 结合 WildCamera校准相机内参（焦距、光心），提拔对真实场景的鲁棒性。
相机标定与点云处理
- 内参估计：使用 WildCamera 估计相机焦距和光心参数。
- 坐标转换：通过 PerspectiveFields 将点云从相机坐标系转换为地理坐标系（俯仰角、滚动角），无需依靠特定平面分割（如地面或桌面）。
三维场景图构建
- 节点界说：每个节点包含对象类别、宽度和高度。
- 界限框生成：从深度图反投影点云，经规范化和去噪后生成轴对齐界限框（AABB）。
- 空间关系计算：基于点云质心和界限框计算相对关系（左/右、宽/窄等）和度量关系（隔断、方位角）。边范例包罗相对位置（如“Region A在Region B左侧”）和几何属性（如“Region C高度为50cm”）。

从三维场景图学习空间感知VLM

数据生成计谋
- 基于模板的问答：提取场景图属性（如节点尺寸、空间关系），生成布局化问答对。
  - 定性模板（例：“Region[X]是什么颜色的？”）和定量模板（例：“Region[X]的高度是多少米？”）。
  - 提供“地区[X]”实体标识符以关联地区掩码。
- 基于LLM的复杂推理问答：加强模型的多跳空间推理能力。
  - 使用 Llama3-70B生成复杂题目，输入为场景图属性的自然语言形貌（如“Region[X]右侧有一个红色物体，它与Region[Y]的隔断是多少？”）。
  - Prompt格式：将场景图属性转换为上下文形貌，结合“地区[X]”标签引导LLM生成问答。
数据集特性
- 规模：100万张图像、500万个开放词汇地区、800万模板问答 + 70万LLM生成问答。
- 多样性：覆盖室表里、虚拟场景（如Hypersim），支持多模态查询（文本+地区掩码）。

SpatialRGPT视觉语言模型架构

焦点模块
- 地区表现模块
  - 输入：地区掩码/界限框；输出：地区特性嵌入。
  - 使用预练习 GroundingDino 检测掩码，并通过 ROI Align 提取局部特性。
- 深度插件模块：将单目深度图融入现有二维VLM。
  - 共享视觉编码器处理RGB和深度图，生成深度特性图。
  - 通过线性投影将深度特性映射到语言域，权重从RGB连接器初始化并仅在空间任务微调。
  - 无需修改原有模型布局，兼容无深度输入场景。
- 视觉编码器扩展 ：双分支架构：
  - 全局分支：继承全局语义特性。
  - 地区分支：融合地区特性与深度信息，通过交错注意力机制加强空间推理。
Tokenization 与Prompt格式
- 多模态输入：通过占位符（<图片>、<地区>、<深度>）混淆图像、地区、深度特性编码。
- Prompt模板：以“<图片>\n”为前缀，动态替换为图像级嵌入；地区掩码通过<地区>标志替换。

练习与推理范式

练习阶段
- 连接器特性对齐：预练习RGB连接器（CC3M图片-字幕对），优化图像-文本匹配损失。
- 视觉语言预练习 ：团结优化大型语言模型（LLaMA2-7B）和RGB连接器，使用MMC4和COYO语料库。
- 指令微调：冻结LLM和RGB参数，仅微调深度连接器，使用OSD数据集举行视觉指令适配。
推理阶段
- 输入支持：兼容地区掩码或界限框，缺失掩码时调用SAM动态生成。
- 多模态交互：通过占位符实现图像、地区、深度特性的交错编码，适配复杂空间查询。

实验与分析

三维空间推理基准测试

SpatialRGPT-Bench
- 数据来源：开发了一个新的空间推理 VQA 基准测试，使用来自都会（nuScenes、KITTI）、室内（SUNRGBD、ARKitScenes）和模拟场景（Hypersim）的数据，涵盖多种物体范例，加强基准测试的全面性。
- 物体表现：使用 Omni3D 提供的预处理三维长方体表现每个物体，所有长方体位于同一的三维相机坐标系统内，并按物体类别分类。
- 基准测试内容：基准测试包罗 657 个定性和 749 个定量 VQA 对，涵盖 88 个差别的类别。
基线模型：
- 仅依靠语言的Blind LLM：仅依靠题目内容生成答案，选择 GPT-4 作为基线。
- 带语言引用的视觉语言模型（VLMs）：增长对视觉内容的访问权限，接纳 GPT-4V 和 LLaVA-v1.6-34B 作为基线。
- 具有地区意识的 VLMs：探索与 SpatialRGPT 雷同地区级别能力的模型，包罗 GPT-4V + SoM、LLaVA-v1.6-34B + SoM、KOSMOS-2 和 RegionVILA-7B。
效果：
- 定性问答：SpatialRGPT 在定性问答的成功率方面显著优于基线模型。
- 定量问答：SpatialRGPT 在定量问答的偏差率上保持最低。
- 变体表现：特别是 SpatialRGPT-7B 变体在表现上逾越了 SpatialRGPT-7B(rgb) 变体，尤其是在可以使用相对深度信息来解决歧义的场景中。

公开视觉-语言基准测试

一般基准测试：
- 评估目的：评估整合空间视觉问答数据与深度信息是否会影响其他视觉问答任务的性能。
- 效果：SpatialRGPT 的变体在 VQA-v2 和 MM Vet 数据集上的表现略好于基线模型 VILA-1.5-3B，而且表现相似。
地区和空间基准测试：
- 对象分类效果：在 COCO-2017 验证集上，SpatialRGPT 逾越了基线，展示了其强大的地区认知能力。
- 相对深度基准测试：在 BLINK 的相对深度基准测试上，SpatialRGPT 显著逾越现有技术，与 GPT-4V-Turbo 相比实现了凌驾 20% 的准确率提拔，展示了其在没有明确练习的情况下泛化到新任务的能力。

真实场景应用

复杂空间推理：
- 能力展示：SpatialRGPT 能够独立作为一个复杂的空间推理器，展示了基于其自身空间知识解决复杂空间题目的能力。
- 知识泛化：表明其已经发展出对空间学习的稳健表征，而且这种知识有效地泛化以加强其内在的语言推理能力。

多跳推理：
- SpatialRGPT 能够处理多跳推理任务，展示了其对空间关系的强大明白。

地区感知的密集奖励标注：
- 实验设置：在真实呆板人的实验中，SpatialRGPT 被用作地区感知的密集奖励标注，随着指尖向目标移动，估计的隔断单调递减。
- 有效性证明：证明了其作为地区感知的密集奖励标注的有效性，提供了比仅使用语言的方法更为准确高效的替代方案。

总结

论文提出了SpatialRGPT，一种加强视觉语言模型（VLMs）空间推理能力的框架。
通过集成地区表现模块和灵活的深度信息插件，SpatialRGPT使VLMs能够在局部和全局范围内有效感知空间分列。
数据管道促进了从场景图中学习3D空间知识，SpatialRGPT-Bench提供了一个评估空间认知的综合基准。
效果表明，SpatialRGPT在空间推理任务中显著提高了性能，并展示了其在复杂空间关系推理和呆板人任务中的地区感知密集奖励标注能力。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

NeurIPS-2024 | 具身智能怎样明白空间关系？SpatialRGPT：视觉语言模型中的 ...

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块