分布式数据库多模态大语言模型arxiv论文略读（十五）

鼠扑发表于 2025-4-13 10:25:05

多模态大语言模型arxiv论文略读（十五）

https://i-blog.csdnimg.cn/direct/bbe8c98ef7874e10aa8d5624a5694d05.png
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

➡️ 论文标题：Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文作者：Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
➡️ 研究机构: Huazhong University of Science and Technology, Lehigh University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在生成详细图像形貌、代码生成、视觉对象定位和高级多模态推理等使命中体现出强大的能力。然而，这些模型在练习过程中可能会打仗到有害或私密内容，因此需要通过安全机制举行微调，以确保生成的内容安全。尽管如此，研究发现，通过对抗性攻击，可以绕过这些模型的安全约束和内容过滤机制，尤其是通过模型API的毛病。
➡️ 研究动机：现有的研究主要集中在模型输入中的对抗性样本，而对模型API中的毛病关注较少。为了填补这一研究空缺，研究团队发现了GPT-4V中的系统提示泄露毛病，并基于此提出了一种新的MLLM破解攻击方法——SASP（Self-Adversarial Attack via System Prompt）。此外，研究还探究了修改系统提示以防御破解攻击的潜力。
➡️ 方法简介：研究团队通过经心设计的对话模拟，成功提取了GPT-4V的内部系统提示。基于这些系统提示，他们开辟了SASP方法，通过GPT-4作为红队工具，主动搜索潜在的破解提示。此外，通过人工修改这些提示，进一步进步了攻击成功率至98.7%。研究还评估了修改系统提示以防御破解攻击的结果，结果表明，适当设计的系统提示可以显著降低破解成功率。
➡️ 实验设计：实验在三个公开数据集上举行，包括面部辨认使命。实验设计了不同语言（英语、中文、泰语）的四种提示类型（直接请求、基线攻击、SASP、SASP+人工修改），以全面评估模型对破解提示的敏感性和抗干扰能力。实验结果表明，SASP方法在英语提示下的攻击成功率为59%，而经过人工修改后的攻击成功率高达99%。此外，研究还通过系统提示召回方法，评估了系统提示在防御破解攻击中的有用性。
Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

➡️ 论文标题：Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
➡️ 论文作者：Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd
➡️ 问题背景：当前的伪装物体检测（Camouflaged Object Detection, COD）方法主要依赖于监督学习模型，这些模型需要大量正确标注的数据集，导致其泛化能力较弱。此外，现有的COD方法在处置惩罚新场景时体现不佳，尤其是在视频伪装物体检测（VCOD）等新场景中，性能显著下降。
➡️ 研究动机：为了克服现有COD方法的范围性，研究团队提出了一种基于多模态大语言模型（Multimodal Large Language Models, MLLMs）的零样本伪装物体检测框架（Multimodal Camo-Perceptive Framework, MMCPF）。该框架旨在利用MLLMs的强大泛化能力，进步在伪装场景中的检测性能，而无需重新练习或微调模型。
➡️ 方法简介：研究团队设计了链式视觉感知（Chain of Visual Perception, CoVP）机制，从语言和视觉两个方面增强MLLMs在伪装场景中的感知能力。CoVP包括语言提示机制和视觉完成机制，前者通过形貌伪装物体的属性、多义性和多样性来增强MLLMs的感知能力，后者通过改进MLLMs输出的不确定坐标来进步最终生成的二值掩码的正确性。
➡️ 实验设计：研究团队在五个广泛使用的COD数据集上举行了实验，包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。实验设计了不同的提示机制，从简单的文本提示到包罗物理和动态形貌的复杂提示，以及视觉完成机制，以全面评估MMCPF在不同条件下的体现。实验结果表明，MMCPF在零样本设置下显著优于现有的零样本COD方法，并且在弱监督和全监督方法中也体现出竞争力。
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

➡️ 论文标题：InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
➡️ 论文作者：Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景：多模态大型语言模型（MLLMs）在人工智能领域日益突出，不仅在传统的视觉-语言使命中体现出色，还在当代多模态基准测试中展示了令人印象深刻的能力。然而，现有的多模态基准测试通常集中在根本的推理使命上，往往只能产生简单的“是/否”或多选答案，这导致了对MLLMs推理能力评估的肴杂和困难。
➡️ 研究动机：为了缓解这一问题，研究团队手动策划了一个专门针对MLLMs的基准数据集，重点在于复杂的推理使命。该基准数据集包括三个关键的推理种别：演绎推理、溯因推理和类比推理。每个样本都设计了多个步骤的推理过程，以评估模型在生成答案时的推理能力。
➡️ 方法简介：研究团队提出了一个系统的方法，通过构建InfiMM-Eval基准数据集，来评估MLLMs在复杂视觉推理问题上的体现。该数据集不仅包括图像和问题，还包括详细的推理步骤，这些步骤对于评估模型的推理能力至关告急。评估协议包括直接正确答案的满分和基于推理步骤的相关性和逻辑性的部门分数。
➡️ 实验设计：研究团队在InfiMM-Eval基准数据集上对多个代表性的MLLMs举行了评估，包括了演绎推理、溯因推理和类比推理的样本。实验设计了不同复杂度的推理使命，以全面评估模型的推理能力和决议过程。评估结果通过一个综合的评分系统盘算，该系统考虑了推理的复杂度和模型生成答案的正确性。
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

➡️ 论文标题：LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
➡️ 论文作者：Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景：现有的多模态大语言模型（MLLMs）主要采用粗略对齐的图像-文本对预练习的视觉编码器，导致视觉知识的提取和推理不敷。这使得MLLMs在处置惩罚视觉-语言使命时，容易产生错误和幻觉响应。
➡️ 研究动机：为了克服这一问题，研究团队设计了一种双层视觉知识增强的多模态大语言模型（LION），通过细粒度的空间感知视觉知识和高层次的语义视觉证据的注入，提升MLLMs的视觉明确能力。
➡️ 方法简介：LION通过两个层面增强视觉信息：1) 渐渐融合细粒度的空间感知视觉知识，设计了一个视觉聚合器与区域级视觉-语言使命互助，采用分阶段的指令调优策略和混符合配器来解决图像级和区域级使命之间的冲突；2) 软提示高层次的语义视觉证据，利用图像标签作为补充信息，并设计了一种软提示方法来减轻禁绝确标签的影响。
➡️ 实验设计：在多个多模态基准数据集上举行了实验，包括图像形貌生成、视觉问答（VQA）和视觉定位使命。实验结果表明，LION在多个使命上显著优于现有模型，例如在VSR使命上比InstructBLIP进步了约5%的正确率，在TextCaps使命上进步了约3%的CIDEr分数，在RefCOCOg使命上比Kosmos-2进步了约5%的正确率。
A Survey on Multimodal Large Language Models for Autonomous Driving

➡️ 论文标题：A Survey on Multimodal Large Language Models for Autonomous Driving
➡️ 论文作者：Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
➡️ 研究机构: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
➡️ 问题背景：随着大型语言模型（LLMs）和视觉基础模型（VFMs）的出现，多模态AI系统在感知现实世界、做出决议和控制工具方面展现出与人类相当的潜力。LLMs在主动驾驶和舆图系统中受到了广泛关注。尽管具有巨大潜力，但目前对将LLMs应用于主动驾驶系统的关键挑战、机会和将来方向的明确仍然不敷。
➡️ 研究动机：为了系统地探究多模态大型语言模型（MLLMs）在主动驾驶中的应用，本文提供了该领域的全面观察。研究旨在介绍MLLMs的背景、发展以及主动驾驶的历史，概述现有的MLLM工具、数据集和基准，总结首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作，并讨论使用MLLMs在主动驾驶系统中需要解决的告急问题。
➡️ 方法简介：研究团队通太过析现有文献和数据集，总结了MLLMs在主动驾驶中的应用，特殊是在感知、运动规划和运动控制模块中的作用。此外，研究还探究了MLLMs在进步车辆智能、决议和搭客互动方面的潜力。
➡️ 实验设计：研究没有举行具体的实验设计，而是通过文献综述和案例分析，探究了MLLMs在主动驾驶中的应用近况和将来方向。研究团队还构造了首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)，以促进学术界和工业界的互助，探索多模态大型语言模型在主动驾驶领域的可能性和挑战。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

多模态大语言模型arxiv论文略读（十五）