多模态大语言模型arxiv论文略读（八十五）

老婆出轨 · 前天 00:40

Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research

➡️ 论文标题：Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research
➡️ 论文作者：Tianyu Liu, Yijia Xiao, Xiao Luo, Hua Xu, W. Jim Zheng, Hongyu Zhao
➡️ 研究机构: Yale University, UCLA, UT Health, Yale University
➡️ 问题背景：尽管大型语言模型（LLMs）在自然语言处置惩罚（NLP）领域取得了明显成就，但在基因组学和蛋白质组学研究中的应用仍有限。这些领域对模型输出的准确性有严格要求，且需要模型能够处置惩罚多模态数据，如图像和文本。目前，大多数LLMs和多模态LLMs（MLLMs）在生物医学领域的应用重要会合在精准医疗，而针对基因组学和蛋白质组学的研究较少。
➡️ 研究动机：为了填补这一空白，研究团队提出了一套名为Geneverse的LLMs和MLLMs，旨在解决基因组学和蛋白质组学中的三个新任务：基因功能形貌生成、蛋白质功能推断和标记基因选择。通过这些模型，研究团队希望加快分子水平上的中心法则研究。
➡️ 方法简介：研究团队基于多个开源基础模型（如LLaMA2、Mistral、Gemma等）进行了参数高效微调（PEFT）和全参数微调，构建了Geneverse。他们使用了来自NCBI的官方数据集和GPT 3.5生成的合成数据集进行训练，并通过监督指令微调（SIFT）方法优化了模型。对于MLLMs，研究团队还结合了蛋白质结构图像和基因表达信息，以处置惩罚多模态任务。
➡️ 实验设计：研究团队在多个任务上进行了实验，包罗基因功能形貌生成、蛋白质功能推断和标记基因选择。实验设计了差别的数据集组合（如NCBI数据、GPT 3.5生成的数据等），并使用了多种评估指标（如究竟准确性、结构精确性、BLEU分数、ROUGE1分数等）来全面评估模型的性能。此外，研究团队还通过UMAP可视化了基因嵌入，以验证模型生成的基因形貌的质量。
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception

➡️ 论文标题：MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception
➡️ 论文作者：Guanqun Wang, Xinyu Wei, Jiaming Liu, Ray Zhang, Yichi Zhang, Kevin Zhang, Maurice Chong, Shanghang Zhang
➡️ 研究机构: 北京大学、上海人工智能实验室
➡️ 问题背景：当前的多模态大语言模型（MLLMs）在视觉问答和知识推理等任务中表现出色，而视觉感知模型在检测和分割等感知任务中也取得了明显进展。然而，MLLMs重要会合在高条理的图像-文本表明，难以处置惩罚细粒度的视觉理解；而视觉感知模型在特定领域训练时，面对开放天下分布厘革时的泛化本领有限。
➡️ 研究动机：为了降服这些挑战，研究团队提出了相互加强的多模态大语言模型（MR-MLLM），旨在通过结合MLLMs的泛化和新兴本领与视觉感知模型的细粒度感知本领，实现模态间的相互加强。
➡️ 方法简介：研究团队设计了MR-MLLM框架，该框架通过共享查询融合机制、感知加强的跨模态集成方法和感知嵌入的提示生成方法，深化了视觉和语言模态之间的互动。共享查询融合机制将视觉模型的详细输入与语言模型的深度语言理解相结合，加强了多模态理解和视觉感知。感知加强的跨模态集成方法通过引入视觉感知模型的输出，如目的检测的界限框，捕获微妙的视觉元素，丰富了对多模态内容的理解。感知嵌入的提示生成方法将感知信息嵌入语言模型的提示中，确保响应在上下文和感知上的一致性，从而实现更准确和全面的多模态表明。
➡️ 实验设计：研究团队在多个视觉问答、图像形貌和目的检测基准数据集上进行了广泛的实验。实验效果表明，MR-MLLM在细粒度多模态理解任务中超越了现有的MLLMs，特殊是在视觉空间推理基准VSR上，MR-MLLM到达了71.5%的准确率，远超其他具有相同参数量的MLLMs。此外，MR-MLLM明显提升了视觉感知模型在处置惩罚边缘案例检测任务中的本领，特殊是在CODA检测数据集上，MR-MLLM将基线视觉感知模型的边缘案例均匀召回率进步了2%，并赋予了封闭集训练的专用检测器检测新类别的本领。
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

➡️ 论文标题：VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
➡️ 论文作者：Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
➡️ 研究机构: 北京通用人工智能研究院、北京国家通用人工智能实验室、北京大学王选计算机技能研究所、加州大学圣克鲁兹分校计算机科学与工程系
➡️ 问题背景：多模态大语言模型（MLLMs）在视频理解方面的本领得到了扩展，但这些模型经常受到“幻觉”（hallucinations）的影响，即生成与实际视频内容无关或无意义的内容。这种征象在大型视频-语言模型（LVLMs）中尤为突出，需要一个全面的基准来评估和检测这些幻觉。
➡️ 研究动机：现有的研究重要会合在图像-语言模型中的幻觉问题，而忽略了视频-语言模型中动态内容（如动作、事件和故事）可能引发的幻觉问题。为了填补这一空白，研究团队开发了VideoHallucer，这是第一个专门评估LVLMs中幻觉问题的全面基准。
➡️ 方法简介：研究团队提出了一个系统的方法，通过构建VideoHallucer基准，将幻觉分为内在幻觉（intrinsic hallucinations）和外在幻觉（extrinsic hallucinations）两大类，并进一步细分为对象关系、时间、语义细节、外在究竟和外在非究竟幻觉。该基准采用对抗性的二元视频问答（VQA）方法，通过设计基础问题和幻觉问题的配对，来评估模型的幻觉检测本领。
➡️ 实验设计：在VideoHallucer基准上评估了12个LVLMs，实验设计了差别类型的幻觉问题（如对象关系、时间、语义细节、外在究竟和外在非究竟），以全面评估模型在差别条件下的表现。实验效果显现了当前模型在幻觉检测方面的普遍问题，以及模型规模和数据集巨细对幻觉检测本领的影响。此外，研究团队还提出了Self-PEP框架，通过集成表明过程来加强模型的自我改进本领，从而进步模型在VideoHallucer基准上的表现。
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach

➡️ 论文标题：Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach
➡️ 论文作者：Yuxuan Wan, Chaozheng Wang, Yi Dong, Wenxuan Wang, Shuqing Li, Yintong Huo, Michael R. Lyu
➡️ 研究机构: The Chinese University of Hong Kong, China
➡️ 问题背景：当前，将网站结构设计转换为功能性的UI代码是一个耗时且不可或缺的步骤。手动将视觉设计转换为功能代码存在明显挑战，尤其是对于非专业人士。主动设计到代码（Design-to-Code）技能可以简化这一过程，但现有的方法在处置惩罚复杂界面时表现不佳。
➡️ 研究动机：现有的多模态大语言模型（MLLMs）在图像到文本任务中表现出色，但在直策应用于UI代码生成时，由于GUI的复杂性，性能不佳。研究团队通过动机研究发现，MLLMs在生成UI代码时存在元素遗漏、元素失真和元素错位等问题。为了进步生成质量，研究团队提出了一种基于分治法的方法，通过将截图分解为更小的片段来生成UI代码。
➡️ 方法简介：研究团队提出了DCGen，一种基于分治法的主动UI代码生成方法。DCGen首先将截图分解为更小、更易管理的片段，为每个片段生成形貌，然后将这些形貌重新组装成完整的UI代码。该方法通过递归地进行水平和垂直分割，将复杂的截图分解为更小的片段，再通过MLLMs生成代码，最后逐步组装成完整的网站结构。
➡️ 实验设计：研究团队在1,000个真实天下的网站数据集上进行了实验，评估了DCGen在差别MLLMs上的表现。实验设计了差别复杂度的网页，以全面评估DCGen在视觉相似性和代码相似性方面的性能。实验效果表明，DCGen在视觉相似性方面比其他方法进步了14%，并且在处置惩罚差别复杂度的网页时表现出色。人类评估也显示，DCGen生成的网页与设计图像更相似，且能帮助开发者更快地实现网页。
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models

➡️ 论文标题：EmoLLM: Multimodal Emotional Understanding Meets Large Language Models
➡️ 论文作者：Qu Yang, Mang Ye, Bo Du
➡️ 研究机构: 武汉大学计算机学院
➡️ 问题背景：多模态大型语言模型（MLLMs）在客观多模态感知任务中取得了明显的性能，但在表明主观、情感细腻的多模态内容方面的本领仍待探索。这限制了它们有效理解和回应人类通过多模态媒体表达的复杂情感的本领。
➡️ 研究动机：为了弥补这一差距，研究团队提出了EmoBench，这是第一个专门设计用于评估MLLMs在五个盛行的情感任务中的情感本领的全面基准。同时，研究团队提出了EmoLLM，这是一种新的多模态情感理解模型，结合了多视角视觉投影（Multi-perspective Visual Projection）和情感提示（EmoPrompt）两种核心技能。
➡️ 方法简介：EmoLLM通过多视角视觉投影捕获视觉数据中的多样情感线索，并通过情感提示引导MLLMs进行情感推理。多视角视觉投影通过从多个视角分析视觉数据，构建对象及其关系的图表现，从而提取更丰富的情感相关特征。情感提示则使用GPT-4V生成准确和上下文得当的情感提示，确保推理过程的精确性和连贯性。
➡️ 实验设计：研究团队在EmoBench基准上进行了广泛的实验，涵盖了多种情感任务，包罗情感识别、意图理解、幽默检测、仇恨检测和讽刺检测。实验效果表明，EmoLLM在多个基础模型上均匀进步了12.1%的性能，明显提升了多模态情感理解的本领。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

多模态大语言模型arxiv论文略读（八十五）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云