ToB企服应用市场:ToB评测及商务社交产业平台

标题: NeurIPS 2024 | 像素级LLM实现图像视频明确、天生、分割和编辑大同一（昆仑 [打印本页]

作者: 风雨同行 时间: 2025-1-6 20:23
标题: NeurIPS 2024 | 像素级LLM实现图像视频明确、天生、分割和编辑大同一（昆仑
Accepted by NeurIPS 2024

文章链接：https://arxiv.org/pdf/2412.19806
项目链接：https://vitron-llm.github.io/
Github链接：https://github.com/SkyworkAI/Vitron
亮点直击

初次提出了一种通用的视觉多模态大语言模型（MLLM）——VITRON，能够在像素级对图像和视频进行明确、天生、分割和编辑。
引入了一种更高效的LLM到解码器的指令传递机制，联合了离散文本和一连信号嵌入。
提出了针对多模态大语言模型的像素级视觉语言时空对齐学习，使其能够达到最优的细粒度视觉本领。
计划了一种协同模块，最大化任务长期的细粒度视觉特征在全部差别视觉任务之间的共享本领，通过此机制，VITRON的性能逾越了现有的最先辈（SoTA）专业模型。

总结速览

办理的问题

多模态大语言模型（MLLMs）在支持多任务方面缺乏同一性，特殊是图像和视频的联合处理本领不足。
模型在细粒度像素级明确上存在局限，无法实现高精度的视觉区域定位与编辑。
视觉功能单一，难以支持从视觉明确到天生、分割、编辑等全方位任务。
多任务间存在协作性不足，任务间可能互相影响，难以实现同一优化。

**提出的方案 **

同一架构计划：VITRON 接纳基于 LLM 的框架，前端集成图像、视频和像素级区域视觉编码器，后端联合最先辈的图像与视频模块，支持视觉明确、天生、分割和编辑等多任务。
混合指令传递方法：联合离散文本指令与一连信号嵌入，确保 LLM 决策能够精确传递到后端模块。
跨任务协作模块：通过加强任务不变的细粒度视觉特征共享，提升差别视觉任务间的协同本领。
精细化像素级时空对齐学习：计划基于像素的视觉语言对齐与时空预测调优，加强模型的细粒度视觉感知本领。
对抗训练：将任务特定特征与任务不变特征解耦，提升跨任务间的表现稳定性。

应用的技能

视觉-语言对齐学习：通过前端编码器与 LLM 的对齐优化，实现视觉与语言模态的深度协同。
任务调用定向调优：训练 LLM 以更好地天生得当后端模块的调用指令。
嵌入对齐调优：优化 LLM 与后端模块间的信号嵌入对齐，进步信息传递精度。
多模态协作训练：融合像素级感知与时空预测，通过细粒度感知与对抗学习实现任务间协同优化。

达到的结果

在图像和视频任务上实现了真正的同一支持，从静态图像到动态视频均表现精彩。
覆盖 12 项视觉任务，基于 22 个数据集的实行表明，VITRON 在多任务性能上与专用的单任务模型相媲美，甚至逾越了某些任务的最优模型。
实现了从视觉明确到天生、分割、编辑等全流程的高效支持，显现了卓越的多模态通用本领。
模型计划的各项组件通过分析验证了其有用性，为将来多模态模型的进一步发展提供了参考。

VITRON架构

VITRON接纳了现有流行多模态大语言模型（MLLMs）中最常见的“编码器-LLM-解码器”架构范式。整体框架如下图2所示，包含三个关键模块：

前端视觉和语言编码器；
用于语义明确和文本天生的中心LLM；
后端解码器模块，用于用户响应和视觉操作。

前端视觉-语言编码

对于图像和视频，分别使用CLIP ViT-L/14@336px作为编码器。视频编码器独立处理每一帧，并通过在时间维度上进行平均池化来天生整体的时间表示特征。随后，接纳区域像素感知视觉提取器作为草图编码器，用于用户交互（如点击、绘制框或多边形、涂鸦）。主要参考[125]，使用来自用户输入的mask区域的基于对象的表示，这不仅编码了像素级视觉特征，还收集了每个区域的空间位置信息。这些区域特征与对象区域的二进制空间几何掩膜一起进行池化，天生的嵌入特征被使用。随后，这些多模态特征表示通过线性投影传递给LLM。
焦点LLM

在VITRON中，LLM作为焦点代理。遵照最常见的实践 [15, 94, 128]，使用Vicuna（7B，版本1.5）。LLM处理来自语言和视觉模态的输入，以实行语义明确和推理，然后做出决策。对于视觉明确任务，LLM直接为用户输出文本响应。同时，LLM还需向后端模块传递信号和指令，引导着实行逾越文本天生的更复杂任务，例如视觉分割、天生和编辑。

正如前文所夸大的，LLM有用、精确传递信息的本领对复杂多模态任务的性能至关重要。本文提出了充实联合两种常见信息传递方法的长处：离散文本指令和一连信号嵌入。前者有助于正确调用差别的后端模块（得益于LLM在任务调度中的本领），而后者增补了无法通过离散文本直接形貌的丰富模态保留视觉特征。如前面图2所示，LLM输出以下内容：

用户的文本响应；
模块调用的文本指令；
特殊token的特征嵌入。

特征嵌入分为任务特定特征和任务不变的细粒度视觉-语言特征。这些文本指令和特征嵌入被传递给后端模块。
后端视觉专家

为了使MLLM具备多种视觉任务本领，将一系列独立的视觉专家集成到LLM中。

对于图像天生和编辑，集成了基于扩散模型的GLIGEN。
对于图像和视频分割，选择了SEEM。
对于视频天生，分别使用ZeroScope和I2VGen-XL处理文本到视频和图像到视频任务。
末了，对于视频编辑功能，集成了StableVideo。

LLM的文本指令起首确定调用哪个任务模块；同时，特征嵌入被传递给对应模块的特征编码器，以帮忙任务实行。特殊计划了一种结构化调用模板，包罗：

模块名称；
调用下令；
区域（可选），用于特定任务须要的细粒度视觉特征。

特征嵌入包罗任务特定特征和任务不变的细粒度特征。这一计划旨在实现特征解耦，并尽可能广泛地在全部任务中共享任务不变的细粒度特征，以促进差别任务之间的协同作用。
像素感知的协同视觉-语言明确调优

通过VITRON框架，在训练中设置了三个阶段的目的：起首赋予模型根本的多模态本领（明确和天生）；接着进行精细化的视觉定位指令调优，加强模型的像素级感知本领；末了实行跨任务协同学习，最大化全部任务之间共享的细粒度特征。
根本多模态明确与天生技能训练

在训练的第一阶段，主要目的是为MLLM赋予根本的多模态明确和天生本领，包罗前端的编码器与LLM对齐以及后端的LLM与解码器对齐。使用了以下三种训练方法：

总体视觉-语言对齐学习
这一过程旨在确保输入的视觉和语言特征被映射到同一的特征空间中。遵照先前的通用实践，使用包含“图像-形貌”对（如CC3M）、“视频-形貌”对（如Webvid）、以及“区域-形貌”对（如RefCOCO）的数据集。在输入图像、视频或特定视觉区域时，调用冻结的LLM天生与参考形貌同等的文本形貌或标题。
文本调用指令调优
此训练步调的目的是让系统具备精准实行指令的本领，使LLM能够天生恰当且正确的调用文本指令。为此，收集了总计55,000+的指令调优样本。
面向嵌入的解码器对齐调优
除了使用显式的文本指令调用下游模块外，还须要将信号特征嵌入（来自LLM）输入到模块中。参考[114]，通过解码侧投影层对齐特征嵌入与全部视觉模块输入编码器，即通过最小化特征间隔来实现对齐。

精细化时空视觉定位指令调优

一个通用的视觉模型须要具备像素感知的视觉明确本领，实用于图像和视频。因此，为VITRON提出了精细化的时空视觉定位指令调优。焦点思想是使LLM能够定位图像的精细空间性以及视频的详细时间性。提供了以下三个学习方面：

图像空间定位
考虑到LLM本身只能输出文本，计划了响应机制，使其天生相应的边界框区域。关注两类任务：定位图像形貌和参照图像分割。
视频时空定位
对于视频，LLM须要识别空间区域并在视频的时间上下文中对其进行定位，本质上是实现视频追踪。类似地，探索了定位视频形貌和参照视频追踪等任务。
基于定位的视觉问答 (Grounding-aware Vision QA) 上述定位任务仅触及视觉感知的低层次方面。然而，在许多场景下，要求LLM具备更高阶、深入的视觉推理本领，这须要建立在底子的像素级定位本领之上。因此，我们进一步引入了基于定位的视觉问答（Grounding-aware Vision QA），包罗图像问答（Image-QA）和视频问答（Video-QA）。通过这些任务，LLM能够在已定位的结果底子上进行语义层次的问答。

跨任务协同学习

作为通用模型，直接调用差别的专家模块会引发一个关键问题：如何确保差别模块（任务）之间协同工作？如果没有这种协作，将它们整合到一个复合系统中将毫无意义。为相识决这个问题，提出将信号特征嵌入分解为任务特定特征和任务无关的细粒度特征。
直观上，由于全部视觉任务都是细粒度的，任务无关的细粒度特征在差别任务之间共享得越广泛，各任务之间的互惠性就越强，从而获得更大的协同效应。因此，引入了一个跨任务协同学习模块，如下图3所示。

对抗训练用于特征解耦
接纳对抗训练来解耦任务特定特征和任务无关特征。具体而言，起首让差别的视觉专家骨干网络根据这两类特征（通过拼接）进行任务预测。同时，引入一个第三方判别器（充当分类器），仅基于共享特征表征来判定当前任务是哪一类。
理想情况下，一旦判别器无法正确识别任务类型，说明共享特征已经被最大程度纯化，并且可以广泛应用于各个任务之间，从而实现真正的跨任务协同效应。
实行

现在尝试量化 VITRON 在四个视觉任务组上的性能，这些任务覆盖了 12 个任务和 22 个数据集。全部 VITRON 的训练均在 10×A100 (80G) GPU 上进行。为了确保公平比较，全部后续实行均接纳与基线系统类似或相似的设置，并按照既定实践进行评估。
视觉分割结果

图像分割
下表 2 显示了在三个数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上的图像分割结果。与多个重要模型进行了比较，包罗最新的非 MLLM 方法以及 MLLM 基线模型 NExT-Chat。显然，尽管 VITRON 在 RefCOCO Val 和 TestA 数据集上略逊于 NExT-Chat，但在其余数据集上表现优越。

视频分割
对于视频分割，我们研究了两个任务：视频空间定位（带边界框）和视频目的分割（又称视频跟踪，带掩码）。下表 3 展示了 VITRON 与当前最先辈（SoTA）视频 MLLM 在视频空间定位任务上的比较。可以看出，VITRON 显着优于 PG-Video-LLaVA。下表 4 显示了 VITRON 与一些 SoTA 系统在视频跟踪任务上的比较，此中我们的系统继续表现出卓越的性能。

细粒度视觉明确结果

接下来，我们评估 VITRON 在细粒度视觉明确任务中的本领，主要关注图像和视频的区域级任务。
区域级图像明确 我们在图像指代表达明确和图像区域形貌等任务上测试了 VITRON。表 5 中的比较和结果表明，VITRON 在多个数据集和指标上逾越了最佳基线模型，证明其在图像细粒度语义明确上的强盛和正确性。
上述两个任务仅关注模型在区域级别上的识别本领。进一步地，我们深入评估了模型对图像语义明确的本领，特殊是通过基于图像的视觉问答（VQA）任务。这些任务能够有用反映模型对图像深层语义内容的明确本领。下表 6 显示了基于图像的 VQA 在六个数据集上的结果。主要比较了两组模型：一组具有像素级视觉对齐本领，另一组没有。结果表明，具备细粒度对齐本领的模型在任务性能上表现更强，这表明细粒度对齐有助于更深入的语义明确。值得注意的是，VITRON 在评估的模型中表现出最高的性能。

区域级视频明确 同样地，对于视频，我们评估了区域级视频明确本领。在图像观察的底子上，我们直接进行了视频问答（QA）任务。下表 7 展示了在四个代表性数据集上的视频 QA 结果。有趣的是，虽然 PG-Video-LLaVA 具有视频对齐本领，但其表现并未优于缺乏对齐本领的 Video-LLaVA。然而，VITRON 实现了更优秀的性能。这间接证明了我们的系统具备更正确的视频对齐本领（如下表 8 所示），从而促进了更好的视频语义明确。

视觉天生结果

本文评估了系统在视觉天生任务中的本领，重点关注三种最具代表性的天生任务类型：文本天生图像（text-to-image generation）、文本天生视频（text-to-video generation）和图像天生视频（image-to-video generation）。这些任务广泛覆盖了图像天生的需求。下表 8、表 9 和表 10 展示了 VITRON 与其他最新技能（SoTA）系统的比较结果，包罗 MLLM 和非 MLLM 的天生器。结果清楚地表明，VITRON 在全部三种任务中均表现优秀。例如，在文本天生图像和文本天生视频任务中，VITRON 的性能优于 NExT-GPT。同样，在图像天生视频任务中，VITRON 逾越了 SoTA 基线 VideoCrafter1，显现了更精彩的结果。

视觉编辑结果

图像编辑
使用了 MagicBrush 数据集，该数据集通过须要一系列复杂编辑操作的查询挑战模型。这些编辑操作包罗移除、更改、修复和添加元素。目前尚无支持图像编辑的 MLLM 系统，因此我们的比较仅限于非 LLM 的专业系统。下表 11 展示了差别模型在各种指标上的表现。VITRON 在全部指标上均表现更强，表明其在图像编辑任务中的稳定本领。

视频编辑
对于视频编辑，当前社区缺乏像图像编辑那样的尺度化基准和评估方法。因此，选择了手动评估方法。要求差别的视频编辑系统基于类似的查询编辑类似的视频，之后五位评审员对编辑过的视频进行评分。评估主要关注 1) 目的内容修改的成功与否，2) 非目的内容的老实度/保真度。下表 12 展示了视频编辑的手动评估结果。显然，VITRON 在这两个方面均优于两个基线系统，展示了卓越的视频编辑本领。随后，可视化了 VITRON 视频编辑的过程。

讨论

本文通过广泛的定量比较展示了 VITRON 的整体效能。现在进一步探讨系统如何以及为何能够进步，通过深入分析进行探索。
离散文本指令照旧一连信号嵌入，哪种更优？
起首，我们探索了差别的消息传递机制，以确定离散文本指令是否更有利，或者一连信号嵌入是否更得当构建多模态通用模型。同时，我们验证了所提出的混合消息传递方法的优缺点。在 6 个任务上进行测试，比较了使用混合方法（默认设置）、没有信号嵌入和没有文本指令的 VITRON 任务表现，以及后端任务模块的成功实行率。下图 4 展示了结果。如图所示，整体上，使用这两种方法的场景性能始终更好，这证实了我们的混合模式的有用性。同时，我们发现文本指令的方法更有利于后端模块的成功实行，但软特征嵌入似乎在特定任务表现方面更有用。

每种精细视觉对齐学习的贡献有多大？
接下来，验证了在中提出的差别精细视觉对齐学习策略的具体贡献。图 5（顶部的 4 个与图像任务干系，底部的 4 个与视频任务干系）展示了当移除某个学习策略时对性能的影响。总体而言，这 3 种精细视觉对齐学习策略对差别的下游任务至关重要。例如，对齐和引用分割任务直接影响精细视觉识别任务，而针对对齐的视觉问答调优则显着提升认知层次的问答任务。这验证了我们提出的精细视觉对齐调优策略的有用性。

VITRON 是否真的实现了跨任务协同？
末了，探讨了本文的系统是否能够充实支持跨任务协同。根据表 2 至表 12 中关于“协同模块”溶解实行的结果，我们可以观察到协同学习机制确实对整体性能产生了积极影响。在下图 6 中，进一步研究了差别任务之间是否存在协同作用及其合作关系。为了便于研究，考虑了任务之间的一对一映射关系，逐一研究任务对之间的合作。显然，差别任务之间的合作效应有所差别。那些更加依赖精细视觉特征的任务或骨干模块获得了更显着的改进。这也证明了协同学习模块可以成功促进跨任务协同。

结论

VITRON，一种同一的像素级视觉大语言模型，能够无缝明确（感知和推理）、天生、分割（对齐和追踪）以及编辑（修补）图像和视频。进一步先容了一种新的混合消息传递方法，联合了离散文本指令和一连信号嵌入，以确保精确的功能调用。此外，VITRON 接纳像素级时空视觉-语言对齐来加强其精细视觉本领。同时，开发了跨任务协同模块，以优化任务无关的精细视觉特征的使用，提升各类视觉任务之间的协同作用。在 22 个数据集上的 12 个视觉任务中，VITRON 显现了在视觉分割、精细视觉明确、天生和编辑等方面的广泛本领。总体而言，本研究展示了构建一个视觉-语言通用系统的巨大潜力，推动向更同一的人工智能迈进。
参考文献

[1] VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)