ToB企服应用市场:ToB评测及商务社交产业平台

标题: NeurIPS 2024 | 像素级LLM实现图像视频明确、天生、分割和编辑大同一(昆仑 [打印本页]

作者: 风雨同行    时间: 2025-1-6 20:23
标题: NeurIPS 2024 | 像素级LLM实现图像视频明确、天生、分割和编辑大同一(昆仑
Accepted by NeurIPS 2024


文章链接:https://arxiv.org/pdf/2412.19806
项目链接:https://vitron-llm.github.io/
Github链接:https://github.com/SkyworkAI/Vitron
   亮点直击
  
  

总结速览

办理的问题

**提出的方案 **

应用的技能

达到的结果

VITRON架构

VITRON接纳了现有流行多模态大语言模型(MLLMs)中最常见的“编码器-LLM-解码器”架构范式。整体框架如下图2所示,包含三个关键模块:


前端视觉-语言编码

对于图像和视频,分别使用CLIP ViT-L/14@336px作为编码器。视频编码器独立处理每一帧,并通过在时间维度上进行平均池化来天生整体的时间表示特征。随后,接纳区域像素感知视觉提取器作为草图编码器,用于用户交互(如点击、绘制框或多边形、涂鸦)。主要参考[125],使用来自用户输入的mask区域的基于对象的表示,这不仅编码了像素级视觉特征,还收集了每个区域的空间位置信息。这些区域特征与对象区域的二进制空间几何掩膜一起进行池化,天生的嵌入特征被使用。随后,这些多模态特征表示通过线性投影传递给LLM。
焦点LLM

在VITRON中,LLM作为焦点代理。遵照最常见的实践 [15, 94, 128],使用Vicuna(7B,版本1.5)。LLM处理来自语言和视觉模态的输入,以实行语义明确和推理,然后做出决策。对于视觉明确任务,LLM直接为用户输出文本响应。同时,LLM还需向后端模块传递信号和指令,引导着实行逾越文本天生的更复杂任务,例如视觉分割、天生和编辑。


正如前文所夸大的,LLM有用、精确传递信息的本领对复杂多模态任务的性能至关重要。本文提出了充实联合两种常见信息传递方法的长处:离散文本指令和一连信号嵌入。前者有助于正确调用差别的后端模块(得益于LLM在任务调度中的本领),而后者增补了无法通过离散文本直接形貌的丰富模态保留视觉特征。如前面图2所示,LLM输出以下内容:

特征嵌入分为任务特定特征和任务不变的细粒度视觉-语言特征。这些文本指令和特征嵌入被传递给后端模块。
后端视觉专家

为了使MLLM具备多种视觉任务本领,将一系列独立的视觉专家集成到LLM中。

LLM的文本指令起首确定调用哪个任务模块;同时,特征嵌入被传递给对应模块的特征编码器,以帮忙任务实行。特殊计划了一种结构化调用模板,包罗:

特征嵌入包罗任务特定特征和任务不变的细粒度特征。这一计划旨在实现特征解耦,并尽可能广泛地在全部任务中共享任务不变的细粒度特征,以促进差别任务之间的协同作用。
像素感知的协同视觉-语言明确调优

通过VITRON框架,在训练中设置了三个阶段的目的:起首赋予模型根本的多模态本领(明确和天生);接着进行精细化的视觉定位指令调优,加强模型的像素级感知本领;末了实行跨任务协同学习,最大化全部任务之间共享的细粒度特征。
根本多模态明确与天生技能训练

在训练的第一阶段,主要目的是为MLLM赋予根本的多模态明确和天生本领,包罗前端的编码器与LLM对齐以及后端的LLM与解码器对齐。使用了以下三种训练方法:

精细化时空视觉定位指令调优

一个通用的视觉模型须要具备像素感知的视觉明确本领,实用于图像和视频。因此,为VITRON提出了精细化的时空视觉定位指令调优。焦点思想是使LLM能够定位图像的精细空间性以及视频的详细时间性。提供了以下三个学习方面:

跨任务协同学习

作为通用模型,直接调用差别的专家模块会引发一个关键问题:如何确保差别模块(任务)之间协同工作?如果没有这种协作,将它们整合到一个复合系统中将毫无意义。为相识决这个问题,提出将信号特征嵌入分解为任务特定特征任务无关的细粒度特征
直观上,由于全部视觉任务都是细粒度的,任务无关的细粒度特征在差别任务之间共享得越广泛,各任务之间的互惠性就越强,从而获得更大的协同效应。因此,引入了一个跨任务协同学习模块,如下图3所示。


对抗训练用于特征解耦
接纳对抗训练来解耦任务特定特征和任务无关特征。具体而言,起首让差别的视觉专家骨干网络根据这两类特征(通过拼接)进行任务预测。同时,引入一个第三方判别器(充当分类器),仅基于共享特征表征来判定当前任务是哪一类。
理想情况下,一旦判别器无法正确识别任务类型,说明共享特征已经被最大程度纯化,并且可以广泛应用于各个任务之间,从而实现真正的跨任务协同效应。
实行

现在尝试量化 VITRON 在四个视觉任务组上的性能,这些任务覆盖了 12 个任务和 22 个数据集。全部 VITRON 的训练均在 10×A100 (80G) GPU 上进行。为了确保公平比较,全部后续实行均接纳与基线系统类似或相似的设置,并按照既定实践进行评估。
视觉分割结果

图像分割
下表 2 显示了在三个数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上的图像分割结果。与多个重要模型进行了比较,包罗最新的非 MLLM 方法以及 MLLM 基线模型 NExT-Chat。显然,尽管 VITRON 在 RefCOCO Val 和 TestA 数据集上略逊于 NExT-Chat,但在其余数据集上表现优越。


视频分割
对于视频分割,我们研究了两个任务:视频空间定位(带边界框)和视频目的分割(又称视频跟踪,带掩码)。下表 3 展示了 VITRON 与当前最先辈(SoTA)视频 MLLM 在视频空间定位任务上的比较。可以看出,VITRON 显着优于 PG-Video-LLaVA。下表 4 显示了 VITRON 与一些 SoTA 系统在视频跟踪任务上的比较,此中我们的系统继续表现出卓越的性能。


细粒度视觉明确结果

接下来,我们评估 VITRON 在细粒度视觉明确任务中的本领,主要关注图像和视频的区域级任务。
区域级图像明确 我们在图像指代表达明确和图像区域形貌等任务上测试了 VITRON。表 5 中的比较和结果表明,VITRON 在多个数据集和指标上逾越了最佳基线模型,证明其在图像细粒度语义明确上的强盛和正确性。
上述两个任务仅关注模型在区域级别上的识别本领。进一步地,我们深入评估了模型对图像语义明确的本领,特殊是通过基于图像的视觉问答(VQA)任务。这些任务能够有用反映模型对图像深层语义内容的明确本领。下表 6 显示了基于图像的 VQA 在六个数据集上的结果。主要比较了两组模型:一组具有像素级视觉对齐本领,另一组没有。结果表明,具备细粒度对齐本领的模型在任务性能上表现更强,这表明细粒度对齐有助于更深入的语义明确。值得注意的是,VITRON 在评估的模型中表现出最高的性能。


区域级视频明确 同样地,对于视频,我们评估了区域级视频明确本领。在图像观察的底子上,我们直接进行了视频问答(QA)任务。下表 7 展示了在四个代表性数据集上的视频 QA 结果。有趣的是,虽然 PG-Video-LLaVA 具有视频对齐本领,但其表现并未优于缺乏对齐本领的 Video-LLaVA。然而,VITRON 实现了更优秀的性能。这间接证明了我们的系统具备更正确的视频对齐本领(如下表 8 所示),从而促进了更好的视频语义明确。




视觉天生结果

本文评估了系统在视觉天生任务中的本领,重点关注三种最具代表性的天生任务类型:文本天生图像(text-to-image generation)、文本天生视频(text-to-video generation)和图像天生视频(image-to-video generation)。这些任务广泛覆盖了图像天生的需求。下表 8、表 9 和表 10 展示了 VITRON 与其他最新技能(SoTA)系统的比较结果,包罗 MLLM 和非 MLLM 的天生器。结果清楚地表明,VITRON 在全部三种任务中均表现优秀。例如,在文本天生图像和文本天生视频任务中,VITRON 的性能优于 NExT-GPT。同样,在图像天生视频任务中,VITRON 逾越了 SoTA 基线 VideoCrafter1,显现了更精彩的结果。


视觉编辑结果

图像编辑
使用了 MagicBrush 数据集,该数据集通过须要一系列复杂编辑操作的查询挑战模型。这些编辑操作包罗移除、更改、修复和添加元素。目前尚无支持图像编辑的 MLLM 系统,因此我们的比较仅限于非 LLM 的专业系统。下表 11 展示了差别模型在各种指标上的表现。VITRON 在全部指标上均表现更强,表明其在图像编辑任务中的稳定本领。


视频编辑
对于视频编辑,当前社区缺乏像图像编辑那样的尺度化基准和评估方法。因此,选择了手动评估方法。要求差别的视频编辑系统基于类似的查询编辑类似的视频,之后五位评审员对编辑过的视频进行评分。评估主要关注 1) 目的内容修改的成功与否,2) 非目的内容的老实度/保真度。下表 12 展示了视频编辑的手动评估结果。显然,VITRON 在这两个方面均优于两个基线系统,展示了卓越的视频编辑本领。随后,可视化了 VITRON 视频编辑的过程。


讨论

本文通过广泛的定量比较展示了 VITRON 的整体效能。现在进一步探讨系统如何以及为何能够进步,通过深入分析进行探索。
离散文本指令照旧一连信号嵌入,哪种更优?
起首,我们探索了差别的消息传递机制,以确定离散文本指令是否更有利,或者一连信号嵌入是否更得当构建多模态通用模型。同时,我们验证了所提出的混合消息传递方法的优缺点。在 6 个任务上进行测试,比较了使用混合方法(默认设置)、没有信号嵌入和没有文本指令的 VITRON 任务表现,以及后端任务模块的成功实行率。下图 4 展示了结果。如图所示,整体上,使用这两种方法的场景性能始终更好,这证实了我们的混合模式的有用性。同时,我们发现文本指令的方法更有利于后端模块的成功实行,但软特征嵌入似乎在特定任务表现方面更有用。


每种精细视觉对齐学习的贡献有多大?
接下来,验证了在中提出的差别精细视觉对齐学习策略的具体贡献。图 5(顶部的 4 个与图像任务干系,底部的 4 个与视频任务干系)展示了当移除某个学习策略时对性能的影响。总体而言,这 3 种精细视觉对齐学习策略对差别的下游任务至关重要。例如,对齐和引用分割任务直接影响精细视觉识别任务,而针对对齐的视觉问答调优则显着提升认知层次的问答任务。这验证了我们提出的精细视觉对齐调优策略的有用性。


VITRON 是否真的实现了跨任务协同?
末了,探讨了本文的系统是否能够充实支持跨任务协同。根据表 2 至表 12 中关于“协同模块”溶解实行的结果,我们可以观察到协同学习机制确实对整体性能产生了积极影响。在下图 6 中,进一步研究了差别任务之间是否存在协同作用及其合作关系。为了便于研究,考虑了任务之间的一对一映射关系,逐一研究任务对之间的合作。显然,差别任务之间的合作效应有所差别。那些更加依赖精细视觉特征的任务或骨干模块获得了更显着的改进。这也证明了协同学习模块可以成功促进跨任务协同。


结论

VITRON,一种同一的像素级视觉大语言模型,能够无缝明确(感知和推理)、天生、分割(对齐和追踪)以及编辑(修补)图像和视频。进一步先容了一种新的混合消息传递方法,联合了离散文本指令和一连信号嵌入,以确保精确的功能调用。此外,VITRON 接纳像素级时空视觉-语言对齐来加强其精细视觉本领。同时,开发了跨任务协同模块,以优化任务无关的精细视觉特征的使用,提升各类视觉任务之间的协同作用。在 22 个数据集上的 12 个视觉任务中,VITRON 显现了在视觉分割、精细视觉明确、天生和编辑等方面的广泛本领。总体而言,本研究展示了构建一个视觉-语言通用系统的巨大潜力,推动向更同一的人工智能迈进。
参考文献

[1] VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4