近年来,人工智能的发展让大语言模子(MLLM)变得越来越强盛,它们可以理解和处置处罚文字、图片、视频等多种信息,在很多领域都有很好的应用。然而,当这些模子必要理解 3D(立体)场景 时,仍旧面临一些困难。
目前的MLLM主要是用 2D图片训练出来的,也就是说,它们更擅长识别 平面的信息,比如照片中的人和物体。但是,现实世界是三维的(3D),仅靠2D图片训练的模子很难准确理解物体的立体关系。
比方,如果只给一个普通的AI模子一张照片,它大概能识别出一辆汽车,但无法准确判断这辆汽车离自己有多远,或者它的大小、角度等信息。
为了让AI更好地理解3D世界,我们总结出了4篇文章能同时利用视频信息和3D空间数据,让AI具备更强的立体理解能力。
论文1
长处与创新:
1. 该模子能够将视频表示与真实世界的空间环境对齐,从而支持3D视觉定位、3D密集描述和3D问答等任务。通过保持时间和空间上下文信息,减少了预训练数据与实际3D场景之间的差别。
2. 提出了最大覆盖采样策略,将帧选择建模为最大覆盖问题,并接纳贪心算法求解。该策略确保选取最具信息量的帧,进步模子对关键时空特征的识别能力,同时优化推理服从。
3. 接纳多任务训练方式,在多个3D场景理解基准(ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D)上取得SOTA性能。仅使用26%的3D数据,相较于LLaVA-3D,在多个任务上实现显著性能提升,展示了视频模子适配3D模态的巨大潜力。
论文2
长处与创新:
1. 视频-语言指令跟随数据(Video-language Instruction-Following Data):我们提供了一个高质量的数据集 LLaVA-Video-178K,专为视频指令跟随任务设计。该数据集包罗 17.8 万个视频,提供了 130 万条指令样本,包括具体字幕、自由回答和多项选择问答。
2. 视频大规模多模态模子(Video Large Multimodal Models):我们开发了 LLaVA-Video,这是一系列先辈的大型视频-语言模子,能够扩睁开源模子在理解视频内容方面的能力。
3. 开源(Open-Source):为了支持通用视觉助手的开发,我们公开了多模态指令数据、代码库、模子查抄点以及一个可供公众使用的视觉聊天演示。
论文3
长处与创新:
1. OryxViT 视觉编码器:接纳自适应位置嵌入和变长自留意力机制,以原生分辨率生成适用于 LLM 的视觉表示,支持并行处置处罚不同大小的视觉数据。
2. 动态压缩技术:可恣意调整降采样比率(1x-16x),通过共享投影器融合信息,实现高效长序列处置处罚,同时保持高精度识别能力。
3. 增强的数据构建与训练策略:提升 Oryx 在多模态图像、视频及 3D 数据理解方面的能力,并适应不同输入分辨率和任务。
论文4
长处与创新:
1. 我们表明,大规模视频生成预训练能够有效促进视觉机器人操控学习。
2. 我们提出了一种机动的 GPT 风格的 Transformer 模子 GR-1,该模子能够同时支持大规模视频生成预训练和机器人数据微调,从而实现一个同一模子的训练。因此,在大规模视频数据集上训练的模子可以直接用于机器人策略学习。
3. 我们在仿真环境和真实世界中进行了大量实验,以研究 GR-1 在不同设置下的性能。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |