罪恶克星 发表于 2025-4-13 23:39:56

多模态大语言模子arxiv论文略读(八)

https://i-blog.csdnimg.cn/direct/a59c083e678a498582da82e6caeffc9e.png
Investigating the Catastrophic Forgetting in Multimodal Large Language Models

➡️ 论文标题:Investigating the Catastrophic Forgetting in Multimodal Large Language Models
➡️ 论文作者:Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma
➡️ 研究机构: UC Berkeley、NYU、University of Michigan、University of Wisconsin–Madison、Cruise LLC
➡️ 题目配景:随着GPT4的乐成,多模态大语言模子(MLLMs)的研究爱好激增。这些模子通过微调预练习的语言模子和视觉模子,旨在开发通用的多模态语言模子。然而,劫难性遗忘(catastrophic forgetting)——即微调后的模子在预练习使命上的性能降落——仍然是多模态大语言模子中的一个固有题目。
➡️ 研究动机:只管很多微调后的MLLMs在通用视觉-语言理解使掷中体现出色,但它们在图像分类使命上的性能却显著降落。为了深入研究这一题目,研究团队提出了EMT(Evaluating MulTimodality)框架,专门用于评估MLLMs中的劫难性遗忘征象。
➡️ 方法简介:研究团队提出了EMT框架,通过将每个MLLM视为图像分类器来评估其劫难性遗忘征象。EMT框架通过输入图像和文本对,要求MLLM对图像进行分类,并通过另一个语言模子评估其输出的正确性,从而获得分类正确性。
➡️ 实行计划:研究团队首先在多个开源微调的MLLMs上应用EMT框架,发现几乎所有测试的模子在图像分类使命上的性能都显著低于其底子视觉编码器的零样天性能。此外,研究团队还对LLaVA进行了进一步的微调实行,发现适度的微调可以提高模子在非微调使命上的性能,但太过微调会导致劫难性遗忘,模子开始产生与输入题目无关的文本输出。
DreamLLM: Synergistic Multimodal Comprehension and Creation

➡️ 论文标题:DreamLLM: Synergistic Multimodal Comprehension and Creation
➡️ 论文作者:Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi
➡️ 研究机构: 西安交通大学、跨学科信息技能核心研究院(IIISCT)、旷视科技、清华大学、华中科技大学、上海人工智能实行室、上海期智研究院
➡️ 题目配景:当前的多模态大语言模子(Multimodal Large Language Models, MLLMs)在多模态理解方面取得了显著进展,但多模态生成本事,尤其是图像和文本的自由形式生成,仍处于探索阶段。现有的方法通常依靠于外部特征提取器(如CLIP)来生成中心图像表示,这限制了模子的生成本事和理解深度。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了DREAMLLM,一个能够同时学习图像和文本后验分布的通用学习框架。DREAMLLM旨在通过直接在原始多模态空间中采样,以及生成自由形式的交错文档,来增强多模态理解和生成之间的协同作用。
➡️ 方法简介:DREAMLLM基于两个核心原则:1) 生成一切,即模子不仅担当所有模态的原始数据作为输入,也生成原始数据作为输出,通过引入可学习的dream queries来制止改变MLLMs的输出空间;2) 交错生成预练习(I-GPT),即模子在练习过程中生成交错的多模态语料库,通过特别的 token猜测图像在文本中的位置,从而学习所有团结、边沿和条件分布。
➡️ 实行计划:研究团队在多个基准数据集上进行了实行,包括图像到文本的描述、视觉问答(VQA)、文本相关的VQA等使命。实行效果表明,DREAMLLM在零样本多模态理解和生成使掷中体现出色,特别是在处理复杂多模态使命和长上下文信息方面。比方,DREAMLLM-7B在MS-COCO数据集上取得了8.46的FID分数,并在MMBench和MM-Vet评估中分别获得了49.1和35.9的高分。
How Robust is Google’s Bard to Adversarial Image Attacks?

➡️ 论文标题:How Robust is Google’s Bard to Adversarial Image Attacks?
➡️ 论文作者:Yinpeng Dong, Huanran Chen, Jiawei Chen, Zhengwei Fang, Xiao Yang, Yichi Zhang, Yu Tian, Hang Su, Jun Zhu
➡️ 研究机构: Tsinghua University, RealAI
➡️ 题目配景:多模态大语言模子(Multimodal Large Language Models, MLLMs)在多种多模态使掷中取得了前所未有的性能。然而,由于视觉模子固有的对抗鲁棒性题目,MLLMs在引入视觉输入时大概碰面临更严重的安全和安全风险。Google的Bard最近发布了其多模态本事,答应用户提交包含图像和文本的提示,展示了优于开源MLLMs的性能。
➡️ 研究动机:只管取得了显著的成绩,但这些大规模底子模子的安全和安全题目仍然不可制止,而且仍然是一个庞大挑衅。这些模子的架构基于深度神经网络,因此在对抗性扰动下仍然存在稳固性题目。本研究旨在通过攻击Google的Bard来更好地理解贸易MLLMs的脆弱性,并探讨其防御机制的有效性。
➡️ 方法简介:研究团队接纳开始进的基于转移的攻击方法,通过生成对抗性图像来误导Bard输出错误的图像描述。详细来说,研究团队提出了两种攻击方法:图像嵌入攻击和文本描述攻击。图像嵌入攻击通过使对抗性图像的嵌入与原始图像的嵌入偏离来实现,而文本描述攻击则直接针对整个生成管道,使生成的描述与正确描述不同。
➡️ 实行计划:实行在NIPS17数据集上进行,随机选择了100张图像。实行计划了不同的攻击方法,包括图像嵌入攻击和文本描述攻击,并评估了不同模子组合下的攻击乐成率。此外,研究团队还评估了对抗性样本在不同提示下的泛化本事,并测试了对抗性攻击对Bard的面部检测和毒性检测防御机制的有效性。
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

➡️ 论文标题:Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision
➡️ 论文作者:Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin
➡️ 研究机构: Nanyang Technological University, Shanghai Jiaotong University, Sensetime Research
➡️ 题目配景:多模态大型语言模子(MLLMs)的快速发展推动了盘算机视觉从专用模子向通用底子模子的转变。然而,目前在评估MLLMs在低级视觉感知和理解方面的本事上仍存在不足。为了填补这一空缺,研究团队提出了Q-Bench,这是一个全面的基准测试,旨在系统地评估MLLMs在低级视觉感知、低级视觉描述和整体视觉质量评估三个领域的本事。
➡️ 研究动机:只管MLLMs在视觉-语言使命(如图像描述、视觉问答等)中显现出了强大的通用级本事,但它们在低级视觉感知和理解方面的本事尚未得到充分探索。研究团队希望通过Q-Bench,不仅评估MLLMs在这些领域的初步技能,还揭示这些技能的不稳固性和不准确性,从而为将来的模子改进提供方向。
➡️ 方法简介:研究团队构建了三个数据集,分别是LLVisionQA、LLDescribe和多个现有的图像质量评估(IQA)数据集,以全面评估MLLMs在低级视觉感知、描述和质量评估方面的本事。LLVisionQA数据集包含2,990张图像,每张图像配有一个与低级属性相关的题目及其正确答案和错误答案选项。LLDescribe数据集则包含499张图像,每张图像都有专家提供的详细低级描述,用于评估MLLMs的描述本事。此外,研究团队还提出了一种基于softmax的策略,使MLLMs能够猜测可量化的质量评分,以评估其与人类意见的同等性。
➡️ 实行计划:实行在多个数据集上进行,包括来自不同来源的2,990张图像用于低级视觉感知评估,499张图像用于低级描述本事评估,以及多个IQA数据集用于质量评估。实行计划了不同范例的题目(如是/否题目、什么题目、如何题目)和不同范例的图像(如天然图像、人工扭曲图像、AI生成图像),以全面评估MLLMs在不同条件下的体现。此外,研究团队还通过GPT辅助的多轮评估过程,对MLLMs的输出进行了详细评估,确保评估的正确性和公正性。
VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models

➡️ 论文标题:VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models
➡️ 论文作者:Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen、Tencent AI Lab
➡️ 题目配景:在构建AI系统的过程中,数据的质量和可靠性至关重要。然而,现实世界中的数据集大概包含各种“脏数据”,如后门攻击中的中毒样本、众包中的噪声标签,甚至这些脏数据的混合体。这些脏数据的存在使得深度神经网络(DNNs)变得脆弱和不可靠,因此检测并扫除这些脏数据对于提高数据集的质量和可靠性至关重要。
➡️ 研究动机:现有的脏数据检测方法通常只能检测中毒样本或噪声标签,且在处理其他范例的脏数据时泛化本事较弱。研究团队发现,各种脏数据的共同特征是视觉-语言不同等性,即图像内容与标签之间的语义不匹配。基于这一发现,研究团队提出了一种通用的脏数据检测框架,旨在同时检测多种范例的脏数据。
➡️ 方法简介:研究团队提出了一个名为Versatile Data Cleanser (VDC)的通用检测框架,该框架利用多模态大语言模子(MLLM)的跨模态对齐和推理本事,通过三个一连的模块来检测脏数据:视觉题目生成模块(VQG)、视觉题目回答模块(VQA)和视觉答案评估模块(VAE)。VQG模块基于给定的标签生成有关图像的洞察性题目;VQA模块利用MLLM回答这些题目以获取图像的语义信息;VAE模块评估图像和标签之间的语义不同等性。
➡️ 实行计划:研究团队在CIFAR-10、ImageNet-100和ImageNet-Dog三个数据集上进行了实行,评估了VDC在检测中毒样本和噪声标签方面的性能。实行计划了不同的脏数据比例和范例,以全面评估VDC的泛化本事和检测效果。实行效果表明,VDC在检测多种范例的脏数据方面体现出色,且不依靠于外部的干净数据集。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 多模态大语言模子arxiv论文略读(八)