多模态大语言模型arxiv论文略读(二十八)
https://i-blog.csdnimg.cn/direct/2e06fad2f6a74d469df444385da7b4ad.pngMM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
➡️ 论文标题:MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
➡️ 论文作者:Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang
➡️ 研究机构: 上海交通大学互助媒体创新中心、上海人工智能实验室
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了卓越的能力,但这些模型也存在幻觉问题,即生成与输入图像不划一的相应,这限制了它们作为可靠AI体系的应用。研究指出,这种幻觉部分源于模型在理解图像内容时的自我意识不足,即模型难以判定本身能或不能从图像中感知到什么。
➡️ 研究动机:尽管自我意识在MLLMs中的重要性日益凸显,但这一范畴在先前的研究中被忽视。本研究旨在界说和评估MLLMs的自我意识,通过引入知识象限和MM-SAP基准,为提高MLLMs的可靠性和可信度提供新的视角和工具。
➡️ 方法简介:研究团队提出了一个扩展的知识象限框架,该框架不仅考虑了模型参数内的固有知识,还考虑了多模态场景中图像提供的外部信息。基于此框架,研究团队计划了MM-SAP基准,该基准包括三个子数据集,分别评估模型在处置惩罚已知信息和未知信息时的自我意识能力。
➡️ 实验计划:研究团队在MM-SAP基准上评估了13个流行的MLLMs,通过计算scorekk(精确回答已知问题的比例)、scoreku(精确拒绝回答未知问题的比例)和scoresa(scorekk和scoreku的总和)来衡量模型的自我意识。实验结果表明,当前的MLLMs在处置惩罚已知信息方面体现较好,但在辨认未知信息方面存在显着不足,这为未来的研究指明了方向。
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception
➡️ 论文标题:AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception
➡️ 论文作者:Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu, Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin
➡️ 研究机构: Xidian University、Nanyang Technological University、OPPO Research Institute
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在理解、推理和生成方面取得了显著成就,但它们在图像美学感知使命上的体现仍不确定。当前缺乏专门的基准来评估MLLMs在美学感知上的有效性,这可能阻碍更先进的MLLMs的发展。
➡️ 研究动机:为了应对这一挑战,研究团队提出了AesBench,这是一个专家基准,旨在全面评估MLLMs的美学感知能力。通过构建高质量的专家标注美学感知数据库(EAPD)和一套综合评估标准,AesBench旨在填补现有评估工具的空缺,促进MLLMs在美学感知范畴的进一步发展。
➡️ 方法简介:研究团队构建了包含2,800张多样化泉源图像的EAPD,每张图像由美学专家进行高质量标注。别的,研究团队提出了一套从四个维度(感知、共情、评估和表明)体系评估MLLMs美学感知能力的综合标准。
➡️ 实验计划:研究团队在15个知名的MLLMs上进行了广泛的评估,包括两个权势巨子的GPT-4V和Gemini Pro Vision,以及13个最先进的开源模型。实验计划了四个子集(AesPQA、AesEQA、AesAQA和AesInter),分别评估MLLMs在感知、共情、评估和表明四个维度上的体现。实验结果表明,当前的MLLMs在图像美学感知方面与人类仍有显著差距。
COCO is "ALL’’ You Need for Visual Instruction Fine-tuning
➡️ 论文标题:COCO is "ALL’’ You Need for Visual Instruction Fine-tuning
➡️ 论文作者:Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:多模态大语言模型(MLLMs)在人工智能范畴日益突出。视觉指令微调(IFT)是使MLLMs的输出与用户意图对齐的关键过程。高质量和多样化的指令跟随数据是IFT过程的焦点。然而,现有的IFT数据集在多轮对话中体现不佳,且传统的图像形貌和视觉问答(VQA)评估基准无法充实评估现代开放生成型MLLMs的能力。
➡️ 研究动机:研究团队注意到,使用现有IFT数据集练习的模型在多轮对话中往往难以精确遵循用户指令。别的,传统的图像形貌和VQA评估基准由于其封闭情势的评估结构,无法全面评估现代开放生成型MLLMs的能力。因此,研究团队构建了一个新的IFT数据集,旨在提高MLLMs在多轮对话设置中的体现。
➡️ 方法简介:研究团队通太过析和归并来自多个IFT数据集源的数据,构建了一个以COCO图像为中心的视觉指令微调数据集。该数据集包含从COCO和Visual Genome数据会合提取的高质量指令和相应,旨在加强MLLMs的指令跟随能力。
➡️ 实验计划:研究团队使用提出的IFT数据集对LLaVA-1.5进行了重新练习,并在开放生成评估基准上进行了评估。实验计划了一个多轮对话评估协议,以评估模型在多轮对话设置中的体现。实验结果表明,使用新数据集练习的模型在多轮对话设置中体现更好,且在开放生成评估基准上取得了与官方LLaVA-1.5-13B相当或更好的性能。
Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer
➡️ 论文标题:Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer
➡️ 论文作者:Junhao Zheng, Qianli Ma, Zhen Liu, Binquan Wu, Huawen Feng
➡️ 研究机构: 华南理工大学计算机科学与工程学院
➡️ 问题背景:多模态连续指令调优(Multimodal Continual Instruction Tuning, MCIT)使多模态大语言模型(Multimodal Large Language Models, MLLMs)能够不停顺应新的使命需求,而无需昂贵的重新练习。然而,MCIT面临两个主要停滞:灾难性遗忘(catastrophic forgetting)和负向前向迁移(negative forward transfer)。尽管现有方法在缓解灾难性遗忘方面取得了显著进展,但它们仍然受到负向前向迁移的影响。
➡️ 研究动机:研究团队发现,差异使命的输入嵌入之间存在显著差异,这种差异导致模型在顺应新使命时提取与旧使命无关的信息,从而引发灾难性遗忘和负向前向迁移。为了应对这些挑战,研究团队提出了一种新的方法——具有正向前向迁移的提示调优(Prompt Tuning with Positive Forward Transfer, Fwd-Prompt),旨在实现抗遗忘和正向前向迁移。
➡️ 方法简介:Fwd-Prompt通过将提示梯度投影到残差空间来最小化使命之间的干扰,并通过将提示梯度投影到预练习子空间来重用预练习知识。该方法通过选择与视觉和文本特征相关的提示,为每个使命分配差异的子空间,从而实现抗遗忘和正向前向迁移。
➡️ 实验计划:研究团队在四个数据集上进行了实验,包括Flickr30k、VizWiz、TextVQA和GQA。实验计划了差异的使命序次和练习策略,以评估Fwd-Prompt在差异条件下的性能。实验结果表明,Fwd-Prompt在MCIT使命中取得了最先进的性能,同时更新的参数更少,且不需要旧样本。
SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
➡️ 论文标题:SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
➡️ 论文作者:Yang Zhan, Zhitong Xiong, Yuan Yuan
➡️ 研究机构: Northwestern Polytechnical University, Technical University of Munich (TUM)
➡️ 问题背景:尽管大型语言模型(LLMs)在多模态范畴取得了显著进展,但在遥感(Remote Sensing, RS)视觉-语言使命中的应用仍处于低级阶段,且性能不尽如人意。现有的多模态大型语言模型(MLLMs)在处置惩罚RS数据时,缺乏处置惩罚多使命对话的能力,限制了其在开放性使命中的应用。
➡️ 研究动机:为了降服现有模型在RS视觉-语言使命中的局限性,研究团队开发了SkyEyeGPT,一个统一的多模态大型语言模型,专门计划用于处置惩罚RS视觉-语言理解使命。通过构建高质量的RS多模态指令调优数据集,研究团队旨在提高模型在差异使命中的体现,特别是多轮对话和多使命处置惩罚能力。
➡️ 方法简介:SkyEyeGPT的架构包括视觉编码器、对齐层和基于LLM的解码器。研究团队精心策划了一个包含968k练习样本的RS视觉-语言指令数据集SkyEye-968k,该数据集分为单使命图像-文本指令和多使命对话指令。通过两阶段的指令调优方法,SkyEyeGPT在单使命和多使命对话中体现精彩。
➡️ 实验计划:研究团队在8个RS视觉-语言数据集上进行了实验,涵盖了图像级和地区级使命,如图像形貌、视觉问答和视觉定位。实验结果表明,SkyEyeGPT在多个使命中体现精彩,特别是在一些定性测试中,其性能与GPT-4V相当以致更优。别的,研究团队还进行了广泛的溶解实验,以验证SkyEyeGPT结构的有效性。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]