Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

登录 · 发表于 2026-2-10 23:47:13

发表时间：27 Mar 2024
论文链接：https://arxiv.org/pdf/2403.18814
作者单元：The Chinese University of Hong Kong
Motivation：只管 VLM 的进步促进了根本的视觉对话和推理，但与 GPT-4 和 Gemini 等高级模子相比，性能差距仍旧存在。怎样在学术情况中以可担当的本钱推动VLM靠近成熟的模子？
办理方法：我们试图通过从高分辨率视觉token、高质量数据和VLM-guided天生三个方面发掘 VLMs以得到更好的性能和任何工作流程的潜力来缩小差距。

为了增强视觉标志，我们发起在不增长视觉token数目的情况下使用额外的视觉编码器举行高分辨率细化。
我们进一步构建了一个高质量的数据集，以促进精确的图像明确和基于推理的天生，扩展了当前VLM的操纵范围。
总的来说，Mini-Gemini 进一步发掘 VLM 的潜力，并使当前框架可以或许同时明确、推理和天生。我们的方法将这些增强与cutting-edge（尖端的） LLMs和天生模子相联合，旨在进步VLM的性能和用户体验。

实现方式：总的来说，我们的方法接纳了任何到任何范式，它善于将图像和文本作为输入和输出处置惩罚。

特殊是，我们为输入图像引入了一种高效的视觉标志增强管道，具有双编码器体系。它包罗孪生编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入，反映了 Gemini 系列的协同功能。
在推理过程中，他们在留意力机制中工作，此中低分辨率天生视觉查询，高分辨率对应物为参考提供候选键和值。

模子布局：

Dual Vision Encoders：Mini-Gemini的框架在概念上：使用双视觉编码器来提供低分辨率的和高分辨率的视觉嵌入；提出patch信息发掘以在高分辨率地区和低分辨率视觉query之间举行patch-level发掘；LLM用于将文本与图像联合起来，同时举行明确和天生。 高分辨率图像、低分辨率图像（高分辨率双线性插值而来），然后双编码器并行处置惩罚成多网格视觉嵌入。对于LR（低分辨率图像），使用CLIP vit，如许，N个视觉块之间的长程关系就可以很好地保存下来，以便后续在LLM中举行交互。对于HR(高分辨率图像)，接纳基于 CNN 的编码器举行自顺应且高效的 HR 图像处置惩罚。使用 LAION 预练习 ConvNeXt作为 HR 视觉编码器。因此，可以通过将差异卷积阶段的特性上采样并concate到1/4输入标准来得到HR特性图。

Patch Info Mining: 为了维持 LLM 中终极visual tokens的数目以进步服从，将低分辨率LR的visual embedding作为query，高分辨率HR作为Key和Value，旨在从 HR visual embedding中检索干系视觉线索。

如图 3a 所示，该公式封装了合成和细化视觉线索的过程，从而天生增强的视觉标志 Tv，用于后续的 LLM 处置惩罚。它确保每个query的发掘仅限于 HR 具有 M^2 个特性的相应子地区，从而保持服从。这种计划答应在不扩展视觉标志数目的情况下(Q还是从低分辨率的图像来的，只是与K,V举行盘算的时间盘算量增长了，但是保持放入LLM的视觉的token数目稳固)提取 HR 细节，保持细节丰富度和盘算可行性之间的均衡。

别的，还支持视觉令牌扩展。如图 3b 所示，可以将视觉标志扩展到 5N 以捕获更多细节。这是通过将原始图像与其 2× 放大的对应图像归并来实现的，从而产生批量输入 XL∈R5×H′×W′×3。可以使用 LR 视觉编码器得到编码后的视觉嵌入 X′ L ∈ R5×N×C，如第 3.1 节所述。

Text and Image Generation 通过发掘的视觉标志 Tv 和输入文本标志 Tt ，将它们拼接起来作为 LLM 的输入以举行自回归天生。Mini-Gemini 支持纯文本和文本图像天生作为输入和输出，即恣意到恣意的推理。Mini-Gemini 将用户指令转化为高质量的prompt，从而在埋伏扩散模子中天生上下文干系的图像。这种方法反映在后续的高质量图像天生框架中，比方DALLE 3和SORA，它们使用VLM的天生和明确本领来获取用于天生任务的更高质量的文本条件。

实验：为高效练习，固定两个视觉编码器，并优化各个阶段的Patch Info Mining的projector。 同时，仅在指令调优阶段对LLM举行优化。对于模子优化，构建高质量数据以举行跨模态明确和天生。它重要包罗用于模态对齐的 1.2M 标题对和用于指令调解的 1.5M 单轮或多轮对话。别的，我们陈诉了广泛接纳的基于零镜头图像的基准测试的效果，包罗VQAT (TextVQA)、MMB (MMBench)、MME、MM-Vet、MMMU和MathVista数据集.
结论：仍有很大的潜力必要进一步发掘。对于视觉明确来说，计数本领和复杂的视觉推理本领还远远不能令人满意。这大概是由于缺乏相应的练习数据，特殊是在预练习阶段。同时，对于基于推理的天生，在这项工作中使用文原来桥接 VLM 和扩散模子，由于没有发现基于嵌入的方法有显着的增益。将实验探求一种更先辈的方式来举行视觉明确、推理和天生。
高分辨率的编码方法来明确图像细节和笔墨图等，也是一个技能改进，迩来很多新发布 VLM 在做类似的工作。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

本帖子中包含更多资源

浏览过的版块

干翻全岛蛙蛙