整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户” ...

慢吞云雾缓吐愁 · 2025-3-13 10:43:21

近年来，人工智能的发展让大语言模子（MLLM）变得越来越强盛，它们可以理解和处置处罚文字、图片、视频等多种信息，在很多领域都有很好的应用。然而，当这些模子必要理解 3D（立体）场景时，仍旧面临一些困难。
目前的MLLM主要是用 2D图片训练出来的，也就是说，它们更擅长识别平面的信息，比如照片中的人和物体。但是，现实世界是三维的（3D），仅靠2D图片训练的模子很难准确理解物体的立体关系。
比方，如果只给一个普通的AI模子一张照片，它大概能识别出一辆汽车，但无法准确判断这辆汽车离自己有多远，或者它的大小、角度等信息。
为了让AI更好地理解3D世界，我们总结出了4篇文章能同时利用视频信息和3D空间数据，让AI具备更强的立体理解能力。
论文1

长处与创新：
1. 该模子能够将视频表示与真实世界的空间环境对齐，从而支持3D视觉定位、3D密集描述和3D问答等任务。通过保持时间和空间上下文信息，减少了预训练数据与实际3D场景之间的差别。
2. 提出了最大覆盖采样策略，将帧选择建模为最大覆盖问题，并接纳贪心算法求解。该策略确保选取最具信息量的帧，进步模子对关键时空特征的识别能力，同时优化推理服从。
3. 接纳多任务训练方式，在多个3D场景理解基准（ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D）上取得SOTA性能。仅使用26%的3D数据，相较于LLaVA-3D，在多个任务上实现显著性能提升，展示了视频模子适配3D模态的巨大潜力。
论文2

长处与创新:
1. 视频-语言指令跟随数据（Video-language Instruction-Following Data）：我们提供了一个高质量的数据集 LLaVA-Video-178K，专为视频指令跟随任务设计。该数据集包罗 17.8 万个视频，提供了 130 万条指令样本，包括具体字幕、自由回答和多项选择问答。
2. 视频大规模多模态模子（Video Large Multimodal Models）：我们开发了 LLaVA-Video，这是一系列先辈的大型视频-语言模子，能够扩睁开源模子在理解视频内容方面的能力。
3. 开源（Open-Source）：为了支持通用视觉助手的开发，我们公开了多模态指令数据、代码库、模子查抄点以及一个可供公众使用的视觉聊天演示。
论文3

长处与创新：
1. OryxViT 视觉编码器：接纳自适应位置嵌入和变长自留意力机制，以原生分辨率生成适用于 LLM 的视觉表示，支持并行处置处罚不同大小的视觉数据。
2. 动态压缩技术：可恣意调整降采样比率（1x-16x），通过共享投影器融合信息，实现高效长序列处置处罚，同时保持高精度识别能力。
3. 增强的数据构建与训练策略：提升 Oryx 在多模态图像、视频及 3D 数据理解方面的能力，并适应不同输入分辨率和任务。
论文4

长处与创新：
1. 我们表明，大规模视频生成预训练能够有效促进视觉机器人操控学习。
2. 我们提出了一种机动的 GPT 风格的 Transformer 模子 GR-1，该模子能够同时支持大规模视频生成预训练和机器人数据微调，从而实现一个同一模子的训练。因此，在大规模视频数据集上训练的模子可以直接用于机器人策略学习。
3. 我们在仿真环境和真实世界中进行了大量实验，以研究 GR-1 在不同设置下的性能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户” ...

0 个回复

快速回复

楼主热帖

标签云