Qwen2-VL全面解读!阿里开源多模态视觉语言模型,多项逾越GPT4o与Claude 3. ...

打印 上一主题 下一主题

主题 938|帖子 938|积分 2818


文章链接:https://arxiv.org/pdf/2409.12191
Github链接:https://github.com/QwenLM/Qwen2-VL
   亮点直击
本文先容了Qwen系列大型视觉语言模型的最新成员:Qwen2-VL系列,该系列包罗三款开放权重模型,总参数量分别为20亿、80亿和720亿。如图1所示,Qwen2-VL的关键盼望包罗:
  

  • 在各种分辨率和宽高比上的开始进理解本领:Qwen2-VL在视觉基准测试中体现精彩,包罗DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。
  • 对长时间视频(凌驾20分钟)的理解本领:Qwen2-VL可以或许理解凌驾20分钟的视频,增强了其进行高质量视频问答、对话、内容创作等的本领。
  • 强大的设备操作代理本领:凭借先进的推理和决议本领,Qwen2-VL可以与手机、呆板人等设备集成,实现基于视觉输入和文本指令的自主操作。
  • 多语言支持:为了服务全球受众,Qwen2-VL不仅支持英语和中文,还支持包罗大多数欧洲语言、日语、韩语、阿拉伯语、越南语等在内的多语言上下文理解。
  

效果展示

















总结速览

办理的题目

Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处置惩罚方法,办理了在处置惩罚不同分辨率图像时的效率和准确性题目。
提出的方案

引入了“Naive Dynamic Resolution”机制,使模型可以或许动态处置惩罚不同分辨率的图像,并生成不同数量的视觉tokens,从而提拔视觉表示的效率和准确性。
应用的技术


  • Naive Dynamic Resolution机制:动态处置惩罚图像分辨率。
  • Multimodal rotary position embedding (M-RoPE):有效融合文本、图像和视频的位置信息。
  • 统一处置惩罚范式:同时处置惩罚图像和视频,增强视觉感知本领。
  • 扩展规律:探索大规模视觉语言模型(LVLM)的扩展规律,通过模型巨细(2B、8B和72B参数)和训练数据的增加来提拔性能。
达到的效果

Qwen2-VL系列在各类多模态基准测试中体现精彩,特别是Qwen2-VL-72B模型,其性能与领先模型如GPT-4o和Claude3.5-Sonnet相当,逾越了其他通用模型。
方法

Qwen2-VL系列由三种巨细的模型构成,分别为Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超参数和紧张信息。Qwen2-VL在各种规模的LLM中接纳了675M参数的Vison Transformer(ViT),确保了ViT的计算负载在不同规模的LLM中保持恒定。


模型架构

下图2展示了Qwen2-VL的全面布局。保存了Qwen-VL框架,该框架集成了视觉编码器和语言模型。


针对不同的规模适配,实现了一种具有大约675百万参数的ViT,可以或许处置惩罚图像和视频输入。在语言处置惩罚方面,选择了更强大的Qwen2语言模型系列。为了进一步增强模型有效感知和理解视频中的视觉信息的本领,引入了几个关键升级:
简单动态分辨率:Qwen2-VL的一项关键架构改进是引入了简单动态分辨率支持。与其前身不同,Qwen2-VL现在可以处置惩罚任意分辨率的图像,动态将其转换为可变数量的视觉tokens。为支持此功能,修改了ViT,去除了原始的绝对位置嵌入,并引入了2D-RoPE,以捕捉图像的二维位置信息。
在推理阶段,不同分辨率的图像被打包成一个单一序列,打包长度受到控制,以限制GPU内存使用。别的,为淘汰每幅图像的视觉tokens,在ViT后接纳了一个简单的多层感知器(MLP)层,将相邻的2×2 token压缩为一个token,并在压缩的视觉tokens的开头和末了放置特别的<|vision_start|>和<|vision_end|> tokens。因此,分辨率为224×224的图像在使用patch_size=14的ViT编码后,将在进入LLM之前压缩为66个tokens。
Multimodal rotary position embedding (M-RoPE) 另一个关键架构增强是Multimodal Rotary Position Embedding(M-RoPE)的创新。与传统的1D-RoPE(用于LLM)仅能编码一维位置信息不同,M-RoPE有效地建模了多模态输入的位置信息。这通过将原始旋转embedding分解为三个构成部分:时间、高度和宽度实现。对于文本输入,这些组件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE。


在处置惩罚图像时,每个视觉token的时间ID保持不变,而高度和宽度组件则根据token在图像中的位置分配不同的ID。对于视频,视为一系列帧,每帧的时间ID递增,而高度和宽度组件遵循与图像相同的ID分配模式。在输入包含多种模态的环境下,每种模态的位置编号通过将前一模态的最大位置ID加一来初始化。M-RoPE不仅增强了位置信息的建模,还淘汰了图像和视频的位置ID值,使模型在推理时可以或许推断更长的序列。
统一的图像与视频理解 Qwen2-VL接纳混合训练方案,联合图像和视频数据,确保在图像理解和视频理解方面的熟练度。为了尽大概完整地保存视频信息,以每秒两帧的频率采样每个视频。别的,将3D卷积与深度为二的卷积联合,以处置惩罚视频输入,使模型可以或许处置惩罚3D pipeline 而非2D块,从而在不增加序列长度的环境下处置惩罚更多视频帧。
为了保持同等性,每幅图像被视为两个相同的帧。为了平衡长视频处置惩罚的计算需求与整体训练效率,动态调解每个视频帧的分辨率,将每个视频的总tokens数限制为16384。该训练方法在模型理解长视频的本领与训练效率之间取得了平衡。
训练

遵循Qwen-VL,接纳三阶段训练方法。在第一阶段,专注于训练ViT组件,使用大量图像-文本对提拔大型语言模型(LLM)的语义理解。在第二阶段,解冻全部参数,使用更广泛的数据进行更全面的学习。末了阶段,锁定ViT参数,专注于使用指令数据集进行LLM的微调。
模型在多样化的数据集上进行预训练,包罗图像-文本对、光学字符辨认(OCR)数据、交错的图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据源紧张来自清算过的网页、开源数据集和合成数据,数据截止日期为2023年6月。这种多样的数据构成对发展强大的多模态理解本领至关紧张。
在初始预训练阶段,Qwen2-VL接触到约6000亿个tokens。Qwen2-VL的LLM组件使用Qwen2中的参数初始化,而视觉编码器则基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替换。此阶段紧张学习图像-文本关系、通过OCR进行文本内容辨认以及图像分类任务,为模型创建视觉-文本关联的踏实基础。
第二阶段的预训练标记着紧张盼望,涉及额外的8000亿个与图像干系的数据。此阶段引入了更多混合图像-文本内容,促进了对视觉和文本信息之间相互作用的更细致理解。视觉问答数据集的纳入提拔了模型对图像干系查询的响应本领,同时,多任务数据集的引入对模型同时处置惩罚多种任务的本领至关紧张,这在处置惩罚复杂的现实世界数据集时尤为紧张。纯文本数据继续在维持和提高模型语言本领方面发挥关键作用。
在整个预训练阶段,Qwen2-VL处置惩罚了总计1.4万亿个tokens,包罗文本tokens和图像tokens。然而,训练过程中仅对文本tokens提供监视。这种对广泛而多样的语言和视觉场景的接触确保模型深入理解视觉和文本信息之间的复杂关系,从而为各种多模态任务奠定坚实基础。
在指令微调阶段,接纳ChatML格式构建指令跟随数据集。该数据集不仅包罗纯文本对话数据,还包含多模态对话数据。多模态组件包罗图像问答、文档解析、多图像比较、视频理解、视频流对话和基于代理的交互。对数据构建的综合方法旨在增强模型理解和执行各种模态下广泛指令的本领。通过纳入多样化的数据范例,盼望开发出更具多样性和鲁棒性的语言模型,可以或许处置惩罚复杂的多模态任务,以及传统的基于文本的交互。
数据格式

与Qwen-VL同等,Qwen2-VL也使用特别tokens来区分视觉和文本输入。Tokens <|vision_start|>和<|vision_end|>插入在图像特征序列的开始和结束,以划定图像内容。
对话数据 在对话格式方面,使用ChatML格式构建指令调优数据集,每个交互的陈述用两个特别tokens(<|im_start|>和<|im_end|>),以便于对话的结束。蓝色tokens的部分表示受监视的部分。


视觉定位 为了赋予模型视觉定位本领,界限框坐标被标准化到[0, 1000)范围内,并表示为"(, ), (, )"。Tokens <|box_start|>和<|box_end|>用于标记界限框文本。为了准确地将界限框与其文本描述接洽起来,引入了tokens <|object_ref_start|>和<|object_ref_end|>,以指示界限框所引用的内容,从而使模型可以或许有效地解释和生成特定区域的精确描述。


视觉Agent 为了将Qwen2-VL发展为通用的VL-Agent,将各种代理任务(如UI操作、呆板人控制、游戏和导航)视为次序决议题目,使Qwen2-VL可以或许通过多步举措执行来完成任务。对于每个任务,首先定义一组可答应的动作和关键词模式(下划线)以供功能调用。然后,Qwen2-VL分析观察结果,进行推理和规划,执行所选动作,并与环境互动以获取新观察。这一循环反复进行,直到任务成功完成。通过整合各种工具并使用大型视觉语言模型(LVLM)的视觉感知本领,Qwen2-VL可以或许迭代执行涉及现实世界视觉交互的日益复杂的任务。


多模态模型基础设施

Qwen2-VL模型在阿里云的PAI-Lingjun智能计算服务上进行训练,使用其可扩展的计算、自动规复和延迟检测功能。
存储 使用阿里云的超高速CPFS(云并行文件存储)构建Qwen2-VL的预训练和后训练存储系统。将文本数据和视觉数据存储解耦。文本数据简单地存储在CPFS上,并使用mmap进行高效访问。视觉数据使用阿里云的OSS(对象存储服务)进行持久存储。在训练过程中,通过OSS的python-client并发访问视觉数据,并调解并发和重试参数以避免达到QPS(每秒查询次数)限制。视频数据解码是紧张瓶颈,尤其是对于长视频。在几次尝试开源(FFmpeg开发者)和内部软件失败后,研究者们选择了缓存解码技术。查抄点保存每个GPU的优化器和模型状态在CPFS上。
并行性 使用3D并行性,联合数据并行性(DP)、张量并行性(TP)和 pipeline 并行性(PP)来扩展Qwen2-VL模型训练。还使用DeepSpeed的zero-1冗余优化器进行状态分片以节省内存。使用选择性查抄点激活的序列并行性(SP)以淘汰内存使用。当启用TP训练时,总是将视觉编码器和大型语言模型一起分片,但不对视觉合并进行分片,因为其参数相对较少。我们发现TP训练会导致不同的模型共享权重,这是由于卷积操作的非确定性举动。我们通过对共享权重进行离线淘汰办理了这个题目,从而避免了额外的全归约通信步骤。这种方法对性能的影响非常小。
研究者们使用1F1B PP进行Qwen2-VL 72B的训练。我们将视觉编码器、视觉适配器和几个LLM的解码器层组合为一个阶段,并均匀分割剩余的解码器层。请留意,视觉和文本序列长度对于每个数据点都是动态的。在启动1F1B过程之前广播动态序列长度,并使用批索引访问形状信息。还实现了交错的1F1B PP,但发现其速度比标准1F1B设置慢。
软件 使用PyTorch版本2.1.2与CUDA 11.8进行训练。别的,在视觉编码器和LLM的训练中使用闪存留意力以提高效率。还使用了融合操作符,如LayerNorm、RMSNorm和Adam。别的,在训练过程中使用矩阵乘法中的通信与计算重叠。
实行

与现有技术的比较

通过各种视觉基准、视频任务和基于代理的评估来评估我们模型的视觉本领。Qwen2-VL在相同规模下体现出高度竞争力,取得了新的开始进(SoTA)结果。72B模型在大多数评估指标上始终提供顶尖性能,常常逾越闭源模型,如GPT-4o和Claude 3.5-Sonnet。在文档理解任务中,它体现出显著优势。然而,在MMM基准中,本文的模型在处置惩罚更复杂和具有挑战性的题目集时仍然落伍于GPT-4o,表明Qwen2-VL-72B尚有改进的空间。
定量结果

对Qwen2-VL系列在多种数据集上的广泛评估进行展示,提供对模型在各方面本领的全面理解。
一般视觉问答

为了严格评估本文模型在一般视觉问答任务中的本领,研究者们在多种开始进的基准上进行了广泛评估:RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。
Qwen2-VL系列在这些基准上体现精彩,72B模型始终达到或凌驾开始进的结果,而7B和2B变体也体现出强大的本领。在评估真实世界空间理解的RealWorldQA上,Qwen2-VL-72B的得分为77.8,凌驾了之前的开始进(72.2)和强有力的基线,如GPT-4o(75.4),展示了其对物理环境的良好理解。
在评估真正多模态本领的MMStar基准中,Qwen2-VL-72B得到68.3,逾越了之前的最佳结果67.1,突显了其在视觉和文本信息整合方面的本领。在MMVet上,Qwen2-VL-72B在16个复杂多模态任务中体现精彩,取得了74.0,显著凌驾强劲的竞争对手,包罗GPT-4V(67.5),展示了其在应对多样化多模态挑战中的多功能性。
在评估先进推理和指令跟随的MMT-Bench中,Qwen2-VL-72B得到71.7,明显凌驾之前的最佳(63.4),展示了其在应用专业知识和执行视觉辨认、定位、推理及规划方面的本领。在评估细粒度本领的MMBench中,Qwen2-VL-72B在英语测试集上得到86.5,匹配了开始进的程度,而在中文测试集上取得86.6,创下新基准。对于测量14个子任务中广泛感知和认知本领的MME,Qwen2-VL-72B得到累计得分2482.7,显著凌驾之前的最佳(2414.7),突显了其在视觉感知和高级认知任务中的先进本领。
这些综合结果突显了Qwen2-VL系列在一般视觉问答任务中的卓越本领。模型在真实世界空间理解、真正多模态整合、复杂推理、指令跟随以及广泛的感知和认知任务方面显现出先进本领。特别是72B模型在多种基准上持续体现良好,使Qwen2-VL系列成为视觉问答领域的领先办理方案。我们的模型在处置惩罚视觉不可或缺的任务、整合焦点视觉-语言本领以及在多样化多模态场景中显现专业知识方面体现精彩,涵盖从基础感知任务到复杂推理和规划的广泛本领。这一全面评估夸大了Qwen2-VL系列在应对开始进多模态基准所带来的多面挑战中的多功能性和有效性,从而为大型视觉-语言模型设立了新的标准。
文档和图表阅读

在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D数据集上测试了模型的OCR以及文档和图表理解本领。DocVQA/InfoVQA/ChartQA数据集侧重于模型理解文档、高分辨率信息图表和图表中的文本本领,而TextVQA数据集考察了模型理解天然图像中文本的本领。OCRBench数据集是一个混合任务的数据集,除了基于文本的视觉问答外,还关注数学公式解析和信息提取。AI2D数据集侧重于科学图表中包含文本的多项选择题。还在OCRBench上测试了模型的OCR和公式辨认本领,以及在MTVQA数据集上测试了模型的多语言OCR本领。
实行结果表明,本文的模型在多个指标上达到了开始进程度,包罗DocVQA、InfoVQA、TextVQA和OCRBench,展示了模型对多个领域图像中文本内容的良好理解本领。


多语言文本辨认与理解

在多语言OCR方面,本文的模型逾越了全部现有的通用LVLM。本文的模型不仅在公开的MTVQA数据集上优于现有的LVLM(包罗诸如GPT-4o、Claude 3.5 Sonnet等专有模型),还在内部基准测试中在除阿拉伯语外的全部外语上逾越了GPT-4o(见下表3)。


数学推理

在MathVista和MathVision数据集上进行了实行,以评估数学推理本领。MathVista是一个综合基准,包含6,141个多样的数学和视觉任务示例。MathVision数据集包罗3,040个embeddings在实际数学比赛中的视觉配景下的数学题目,涵盖16个数学学科,并在五个级别上具有不同的难度。这些挑战夸大了LVLM显现强大视觉理解、深刻数学理解和良好逻辑推理本领的须要性。Qwen2-VL系列在MathVista上体现精彩,取得70.5的结果,逾越了其他LVLM。别的,它在MathVision上设定了新的开源基准,得分为25.9。
参照表达理解

在视觉定位任务方面,在RefCOCO、RefCOCO+和RefCOCOg数据集上评估了Qwen2-VL。结果如下表6所示,表明Qwen2-VL在通用模型中取得了顶级结果。得益于更合理的布局设计,Qwen2-VL可以或许感知高分辨率图像中的细节,从而显著提高了性能。与通用和专用模型相比,这些模型的良好性突显了它们在推进视觉定位领域和实际任务中实现精确视觉理解的潜力。


视频理解

在各种视频理解任务上也评估了本文的模型,干系基准覆盖从几秒到长达一小时的视频。下表4展示了Qwen2-VL及基线模型的性能。总体而言,Qwen2-VL在2B、7B和72B尺寸上体现强劲,其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。这展示了Qwen2-VL在视频理解任务中的良好本领,而且扩大Qwen2-VL的规模带来了显著的提拔。对于具有挑战性的Video-MME基准,该基准包罗最长可达一小时的视频,值得留意的是,我们在评估过程中将每个视频提取的最大帧数限制为768,这大概影响了在较长视频上的体现。未来的工作将集中在扩展Qwen2-VL以支持更长的序列,从而适应更长的视频。


视觉智能体

首先评估Qwen2-VL在通过函数调用与环境互动的本领,然后评估其通过多轮交互完成复杂决议任务的本领。该实现基于Qwen-Agent框架。
函数调用 与LLM中的函数调用不同,LVLM中的函数调用通常涉及从视觉线索中提取信息。由于缺乏评估LVLM在函数调用本领方面的公共基准,我们构建了内部评估数据集。
为构建评估数据集,进行了以下步伐:场景分类、图像网络、图像内容提取,以及题目/函数/参数生成。首先,我们根据不同的视觉应用将场景分类。随后,从互联网上下载并经心选择每个类别的高质量代表性图像。使用先进的LVLM,分析每张图像以提取关键视觉元素和文本信息。末了,基于图像的内容信息,使用先进的LLM生成一系列需要特定函数回答的题目,并指定这些函数调用所需的输入参数。
研究者们设计了两种指标来评估函数选择的准确性和参数输入的正确性:范例匹配(Type Match,TM)和精确匹配(Exact Match,EM)。
下表5所示,Qwen2-VL在Type Match(93.1对90.2)和Exact Match(53.2对50.0)上的体现优于GPT-4o,这证明了Qwen2-VL在函数调用本领上的有效性,凸显了其通过外部工具集成扩展应用的显著潜力。评估结果表明,GPT-4o的体现不佳,紧张由于两个因素:在不确定性场景中,GPT-4o体现出保守的态度,避免使用外部工具。别的,Qwen2-VL在光学字符辨认(OCR)本领方面也优于GPT-4o,尤其是在中文字符的处置惩罚上。


用户界面操作/游戏/呆板人/导航 为了评估Qwen2-VL处置惩罚复杂任务的本领,在多个视觉语言代理任务上进行了评估,包罗移动操作、呆板人控制、纸牌游戏和视觉语言导航等。由于这些任务需要多次举措才能完成,通过Qwen2-VL支持32K上下文长度来保存汗青(观察、动作),然后在每次举措后附加新的观察图像,以实现对后续步骤的连续推理。
用户界面操作 使用AITZ任务评估Qwen2-VL,该任务构建了一个基于AITW的焦点干净测试集。根据手机的常见操作模式,为Qwen2-VL定义了诸如点击、输入和滑动等操作,以便其与屏幕图标进行交互以完成任务。比方,当Qwen2-VL被要求通过Google地图寻找附近的披萨餐厅时,它应在搜刮框中输入“pizza”,滑动选择适当的餐厅,并点击对应的链接。根据AITZ设置,报告了操作范例匹配(点击、输入或滑动的正确性)和精确匹配(点击位置、输入文本或滑动方向的正确性)。借助于用户界面的基础本领,Qwen2-VL逾越了GPT-4和之前的最新技术程度。
呆板人控制 在AI2THOR的ALFRED任务中评估Qwen2-VL。该任务要求智能体执行复杂的家庭任务,比方烤面包和切苹果以预备餐点。为了在虚拟环境中工作,定义了高层次的动作(GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice)作为动作集。别的,智能体需要定位可操作的物体(比方,只有在辨认到苹果时才能拾取它)。为提高操作准确性,整合了SAM。ALFRED任务报告任务成功率(SR)(比方,预备晚餐)和子目标完成率(GC)(比方,面包是否被烤熟或苹果是否被切)。
纸牌游戏 使用来自RL4VLM的纸牌游戏环境来评估Qwen2-VL在一系列纸牌游戏中的体现:Number Line、BlackJack、EZPoint和Point24。每个游戏提出了不同的挑战:

  • 通过+1或-1操作达到目标数字;
  • 抽取或保存牌与庄家竞争;
  • 应用基本算术运算达到总数12;
  • 使用算术运算达到总数24。
报告任务的成功率,这不仅评估了智能体的本领,还需要强大的OCR技能来辨认这些牌并理解游戏进程。Qwen2-VL在全部任务中体现良好。
视觉语言导航 在视觉语言导航(VLN)任务中评估Qwen2-VL,使用R2R和REVERIE。在VLN中,模型必须根据指令和当前观察自主确定下一个位置。我们报告该任务中到达预定目标地的成功率(SR)。Qwen2-VL的体现与GPT-4o相当,但两者都显著落伍于当前专门的VLN模型。将这一差距归因于模型从多个图像生成的不完整和非布局化的地图信息。在三维环境中准确建模地图和位置仍然是多模态模型面对的庞大挑战。
溶解研究

本节展示了关于图像动态分辨率、M-RoPE和模型规模的溶解研究。这些实行旨在提供这些关键组件对模型性能影响的深入见解。
动态分辨率

如下表7所示,比较了动态分辨率与固定分辨率的性能。在固定分辨率下,调解图像巨细,以确保输入到模型的图像tokens数量保持恒定,而不是调解到特定的高度和宽度,因为这会扭曲原始宽高比。在动态分辨率中,我们仅设置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28,答应图像tokens的数量紧张依赖于图像的原始分辨率。可以观察到,调解图像巨细仅导致性能的小幅颠簸,表明模型对不同图像巨细的鲁棒性。别的,动态分辨率的方法效率更高。我们发现没有单一固定分辨率在全部基准测试中都能达到最佳性能。相比之下,动态分辨率方法在均匀消耗更少tokens的环境下,始终实现顶级性能。


单纯增加图像巨细并不总是导致性能的提拔。选择适当的分辨率对不同图像更为紧张。如下图4所示,将小图像放大到凌驾指定的min_pixels阈值。对放大图像的评估显示,在InfoVQA、HallusionBench和OCRBench等感知任务上性能增强。我们将这些增益归因于增加的计算负载。然而,对于OCRBench,过高的min_pixels值导致严峻的性能降落。这大概是因为OCRBench包含许多极小的图像,过度放大会使这些图像偏离训练数据分布,变成超出分布的样本。相反,增加min_pixels对MMMU基准的影响微乎其微。我们假设MMMU的性能瓶颈与模型的推理本领关系更大,而非图像分辨率。


M-RoPE

本节展示了M-RoPE的有效性。首先,验证其在各种下游任务中的本领。接纳Qwen2-1.5B和ViT-L作为基础,并报告预训练模型的结果。如下表8所示,与1D-RoPE相比,使用M-RoPE在下游任务中体现更佳,特别是在视频基准测试中。


别的,在Video-MME中等长度视频上评估了M-RoPE的长度外推本领。下图5展示了Qwen2-VL-72B在不同推理长度下的性能。使用M-RoPE,模型在各种推理长度下体现稳健。值得留意的是,尽管在训练期间每个视频的最大tokens限制为16K,但模型在最大推理长度达到80K tokens时仍体现精彩。


模型规模

评估了不同规模模型在多个本领维度上的体现。详细而言,将这些维度分类为复杂的大学程度题目办理本领、数学本领、文档和表格理解、一般场景问答以及视频理解。通过对与每个维度干系的不同基准测试的得分进行均匀,我们评估了模型的整体本领。
详细来说, 使用MMMU基准来表示大学程度的题目办理本领,同时,MathVista和MathVision的均匀得分作为数学本领的指标。对于一般场景问答,计算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基准的均匀得分。
文档和表格理解本领通过DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基准的均匀得分体现。末了,视频理解本领通过MVBench、Perception-Test、EgoSchema和Video-MME的均匀得分进行测量。
如下图6(a)所示,随着模型规模的增加,性能呈现出同等的提拔,特别是在数学本领方面,这与模型参数的数量呈正干系。另一方面,对于光学字符辨认(OCR)干系任务,即使是小规模模型的体现也相对强劲。

如上图6(b)所示,我们可视化了Qwen2-VL-7B在预训练第二阶段中模型性能与训练tokens数量之间的关系。随着训练tokens数量的增加,模型性能有所提拔;然而,在视觉问答(VQA)任务上,性能却体现出肯定颠簸。相比之下,对于AI2D和InfoVQA等任务,这些任务涉及理解图像中的文本和图形信息,随着训练数据的增加,模型性能稳步提拔。
结论

本文先容了Qwen2-VL系列,这是多功能的大型视觉语言模型,包罗三个开放权重模型,参数总量分别为20亿、80亿和720亿。Qwen2-VL在多种多模态场景中的体现与顶尖模型如GPT-4o和Claude3.5-Sonnet相匹配,逾越了全部其他开放权重的LVLM模型。Qwen2-VL系列引入了简单的动态分辨率和Multimodal rotary position embedding (M-RoPE),有效融合跨模态信息,并可以或许理解凌驾20分钟长度的视频。凭借先进的推理和决议本领,Qwen2-VL可以与移动设备、呆板人等设备集成。别的,Qwen2-VL现已支持理解图像中的多语言文本,包罗大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
现在已将Qwen2-VL模型权重开放获取,答应研究人员和开发者在各种应用和研究项目中充分使用其潜力。我们致力于推进人工智能技术,增强其对社会的积极影响。
参考文献

[1] Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

更多精彩内容,请关注公众号:AI生成未来


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

东湖之滨

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表