InternVideo2.5：Empowering Video MLLMs with Long and Rich Context Mode ...

刘俊凯 · 2025-4-9 05:56:12

一、TL；DR

InternVideo2.5通过LRC建模来提拔MLLM的性能。
层次化token压缩和任务偏好优化（mask+时空 head）整合到一个框架中，并通过自适应层次化token压缩来开辟紧凑的时空表征
MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提拔明显

二、介绍

MLLM的问题点：
MLLM在基本视觉相关任务上的体现仍不如人类，这限制了其明白和推理本领。它们在识别、定位和回想常见场景中的物体、场景和动作时体现不佳。
本文如何办理：
研究多模态上下文的长度和细粒度如何影响MLLM以视觉为中央的本领和性能，而不是专注于通过scaling law直接扩展MLLM。
取得了什么效果：

详细而言，本文的贡献在于：

初次全面研究了如何实现长且丰富的上下文（Long and Rich Context，LRC），以提拔MLLM的影象和专注本领。
- 通过将层次化token压缩（Hierarchical Token Compression，HiCo）和任务偏好优化（Task Preference Optimization，TPO）整合到一个框架中
InternVideo2.5可以或许明显提拔现有MLLM在视频明白方面的体现，并赋予它们专家级的视觉感知本领。
- 在多个短视频和长视频基准测试中取得了领先的性能。InternVideo2.5的视频影象容量使其可以或许保留至少比原始版本长6倍的输入。

三、方法

InternVideo2.5通过增强MLLM的上下文长度和细粒度来获得长且准确的视频明白，采用了视频长度自适应的标记表示和任务偏好优化，如图2所示。整个模型通过三个阶段进行学习，使用了短视频、长视频以及经典视觉任务数据。整个方法详细描述如下。
说人话：在前面的clip encoder时使用Tome做token压缩，在浅层使用TDrop进行token prune做算力压缩，深层使用注意力机制提取关键token，然后增加了一个mask Head和时间明白的head用于明白上下文和视觉细节（任务偏好优化），最背面接生成出效果

3.1 视频长度自适应标记表示用于长多模态上下文

引入了一种实用的长度自适应token representation方法，可以或许高效地处置惩罚恣意长度的视频序列。在动态帧采样之后，给定的流程实现了具有两个差异阶段的层次化标记压缩（HiCo）：

视觉编码过程中的时空感知压缩
语言模型处置惩罚过程中的自适应多模态上下文整合。

自适应时间采样：实现了一种根据视频时长和内容特性进行调整的上下文感知采样机制。

对于运动粒度至关重要的较短序列，我们采用密集时间采样（每秒15帧）。
对于专注于变乱级别明白的长序列（比方分钟/小时级别的视频），我们使用稀疏采样（每秒1帧）。
这种自适应方法确保了在差异时间尺度上都能正确捕捉运动。

分层token压缩：我们通过变乱中的时空冗余和变乱之间的语义冗余来压缩长视觉信号。

时空token合并：通过层次化压缩方案办理时空冗余问题，通过语义相似性进行令牌合并，保留视频中的关键信息：
- 给定一个被划分为T个时间片断的视频序列，每个片断由视觉编码器E处置惩罚以生成M个初始标记：vji（i=1,2,...,M）用于第j个片断。这些标记通过标记毗连器C进行自适应压缩，产生N个压缩后的标记sji（i=1,2,...,N），其中N < M

通过语义相似性进行令牌合并，保留视频中的关键信息。实验表明，基于语义相似性的令牌合并方法（如ToMe）在视觉压缩中体现出色，可以或许在保留细节的同时明显减少计算开销。

多模态token丢弃：我们引入了在语言模型处置惩罚过程中运行的标记丢弃，以进一步优化长距离视觉明白。它实现了两阶段标记减少战略：
- 浅层中进行匀称token prune，以保持结构完备性，同时减少计算开销；
- 深层中进行注意力引导的token选择，以保留与任务的关键信息。

3.2 通过任务偏好优化增强多模态上下文中的视觉精度

为了增强多模态语言模型（MLLMs）在细粒度视觉任务中的体现，我们引入了多任务偏好学习（MPL）。该方法通过将专门的视觉感知模块与基础MLLM架构集成，实现了精确的定位和时间明白等本领。

时间明白：为了处置惩罚动态视觉内容，我们开辟了一个时间组件，结合视频特性提取和时间对齐本领。该组件可以或许猜测精确的时间边界和相关分数，从而帮助模型更好地明白视频中的时间关系。
实例分割：为了实现像素级明白和实例级区分，我们设计了一个分割模块，基于最新的分割基础模型（如SAM2）。该模块通过自适应投影层将MLLM的嵌入与像素级猜测毗连起来，从而实现了对视频中目标的精确分割。

模型通过团结优化视觉感知模块和基础MLLM，实现了对细粒度视觉任务的精确处置惩罚。
3.3 多模态上下文建模的练习视频语料库

练习过程分为三个阶段，分别使用了视觉-文本对齐数据、长视频数据和特定任务的视觉数据。练习数据如表1所示。

视觉-文本数据用于跨模态对齐：我们收集了包罗700万图像-文本对和370万视频-文本对的视觉-文本数据，以及14.3万用于增强语言本领的文本数据。
长视频语料库用于上下文扩展：我们重要使用了来自MoiveChat、Cineplie、Vript和LongVid的长视频指令数据。
特定任务的数据用于精确感知：包括用于指代分割任务的MeViS和SAMv2，用于空间定位的AS-V2、Visual Genome、RefCOCO等。

3.4 徐徐多阶段练习

我们提出了一个统一的徐徐练习方案，共同增强MLLM的细粒度感知和时间明白本领。该方法包括三个重要阶段，徐徐增加任务的复杂性和视频输入的时间长度。

阶段1：基础学习：该阶段专注于两个并行目标：（a）使用多样化的对话模板对LLM进行任务识别指令调整，使模型可以或许识别和路由差异的视觉任务；（b）视频-语言对齐练习，其中我们冻结视觉编码器和LLM，同时优化压缩器和MLP以建立基本的视觉-语言毗连。
阶段2：细粒度感知练习：该阶段通过（a）使用特定任务的数据集集成和练习特定任务的组件，包括任务标记、地区头、时间头和掩码适配器；以及（b）使用350万图像和250万短视频-文本对进行视觉概念预练习来增强模型的视觉明白本领。
阶段3：集成准确和长形式上下文练习：末了阶段通过（a）在结合多模态对话和特定任务数据的混合语料库上进行多任务练习，允许任务监视梯度从专门头流向MLLM；以及（b）在包罗350万样本的综合数据集上进行指令调整，包括110万图像、170万短视频（<60秒）和70万长视频（60-3600秒）。

这种徐徐练习战略使模型可以或许在发展细粒度感知和长形式视频明白的同时，减少对通用本领的潜在退化。与依赖长文本扩展上下文窗口的先前方法差异，我们直接在长视频上进行练习，以最小化练习和摆设场景之间的差距。
3.5 实现

分布式系统：基于XTuner开辟了一个多模态序列并行系统，用于练习和测试数百万个多模态标记（重要是视觉）。通过整合序列和张量分布式处置惩罚以及多模态动态（软）数据打包，我们实现了长视频的可扩展计算。
模型配置：在我们的多模态架构中，我们使用了一个结合先进视频处置惩罚和语言建模本领的综合框架。该系统实现了动态视频采样，处置惩罚64-512帧，每个8帧剪辑压缩为128个标记，产生约莫每帧16个标记的表示

四、实验效果

在MVBench和Perception Test上，InternVideo2.5分别提拔了3.7分和6.7分。在长视频明白方面，InternVideo2.5在EgoSchema和MLVU上的提拔尤为明显，分别提拔了12.4分和3.9分

视频明白效果好，尤其是细节：

在特定任务上也体现出色：

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

InternVideo2.5：Empowering Video MLLMs with Long and Rich Context Mode ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块