qidao123.com技术社区-IT企服评测·应用市场

标题: 视频大语言模子调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual [打印本页]

作者: 用户国营 时间: 2024-7-20 18:21
标题: 视频大语言模子调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual
本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模子产品，可以理解视频中视觉和听觉内容。和很多多模态大语言模子类似，模子结构和练习方式中规中矩，但是针对视频这种信息量丰富的数据范例，作者提出了一些创意。
有关本专栏的更多内容，请参考大语言模子文献调研专栏目录

模子结构：与以往仅补充LLMs处理视觉或音频信号的作品差别，Video-LLaMA通过应对两个挑战实现视频理解：
（1）捕捉视觉场景中的时序变化：作者提出了Video Q-former，将一个预练习的图像编码器组装到视频编码器中，并引入视频到文本天生任务来学习视频-语言对应关系。
（2）整合音频-视觉信号。使用通用嵌入模子ImageBind作为预练习音频编码器，并在ImageBind之上引入一个Audio Q-former，为LLM模块学习合理的听觉查询嵌入。
练习方式：和很多多模态大语言模子一样，Video-LLaMA冻结预练习视觉和音频编码器，冻结的LLMs，进行跨模态练习。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐，作者首先在海量视频/图像标题对上练习Video-LLaMA，然后使用质量更高但数量适中的视觉引导数据集模子。
1. 论文的基本信息

1.1 论文资源

论文链接：https://arxiv.org/pdf/2306.02858.pdf
代码链接：https://github.com/DAMO-NLP-SG/Video-LLaMA
展示样例：https://www.youtube.com/watch?v=RDNYs3Rswhc&feature=youtu.be
论文引用：

@article{zhang2023video,
title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
author={Zhang, Hang and Li, Xin and Bing, Lidong},
journal={arXiv preprint arXiv:2306.02858},
year={2023}
}

复制代码

1.2 任务介绍和动机

大型语言模子(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达，但是，在很多应用场景下，仅限于文本的人机交互并不敷够，真实天下的信息通常是多模态的。
现有工作的不敷。为了进一步探索LLMs的潜力，很多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交错的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预练习，以适应多模态输入。大概接纳更高效的参数方式，通过补充LLMs与现成的视觉或语音根本模子来实现多模态理解。尽管这些方法有效，但它们致力于将来自一个额外模态（即图像或音频）的输入与文本对齐，这对于视频理解来说远远不敷。要使LLMs理解视频，必要全面处理包括视觉输入、听觉输入和文本输出在内的差别模态，这比仅理解图像或仅理解音频任务更具挑战性。近期有一些研究尝试释放LLMs的视频理解能力，但它们主要目的是仅理解视频的视觉内容，而忽略了听觉内容。因此，作者的研究旨在填补加入音频的-视觉LLMs的空白，探究构建支持视频输入的多模态LLMs的大概性，使用户能够围绕用户上传的视频与盘算机进行交流。
构建端到端模子处理多模态结构。视频通常由多个视频帧和音频组成。与使用外部感知模子将视觉/听觉信号转换为文本信号差别，作者构建了一个端到端模子，可以在单个框架内处理来自多种模态的数据。接纳BLIP-2的思想来保证跨模态预练习的效率。为了明确捕捉视频中视觉场景的变化，使用预练习的视觉编码器分别盘算帧表现。然后，我们引入了帧嵌入层来注入时间信息，以及一个视频Q-Former来天生视觉查询标记。对于视频中的音频信号，我们另外使用预练习的音频编码器以及音频Q-Former来学习合理的听觉查询嵌入。
多支路跨模态预练习实现视频与文本的对齐。为了使文本输出与视频对齐，作者设计了多支路交叉模态预练习，以学习视觉-语言对应关系和音频-语言对应关系。首先在大规模视频文本数据集上对与视觉相干的组件进行预练习，然后在视频会话数据集上进行微调，以执行视觉指令调整。对于音频编码器和语言解码器之间的对齐，作者进一步在音频文本数据集上对音频相干组件进行预练习。作者使用Imagebind作为编码器，将差别模态对齐到公共嵌入空间。
2. 相干工作

**大型语言模子（LLMs）**已成为跨领域的自然语言理解和天生的强大工具，涵盖了文章、对话、故事和诗歌等多种领域。诸如LLaMA、BLOOM和OPT等开源LLMs大大推动了技术的进步，并为自然语言处理社区做出了巨大贡献。借助这些LLMs奠定的根本，研究人员进一步扩展了它们的能力，开发了针对特定自然语言处理任务的专门模子，如Vicuna和Baize。作者在这些进展的根本上，通过增强LLMs的能力，使其能够理解视频中的视觉和听觉内容，从而扩展了它们在多媒体应用中的实用性和影响力。
研究人员不停积极探索使用LLMs处理多模态输入的方法。现有方法可分为两大类。第一类是将LLMs作为控制器，使用现有的多模态模子作为工具。在这种方法中，当吸收到用户的文本指令时，LLM识别用户意图并决定调用哪些工具，然后通过整合这些现成的多模态模子得到综合性回应。例如包括ChatGPT、HuggingGPT和AudioGPT等。第二类偏重于练习根本的大规模多模态模子。这一系列工作的关键思想是将其他模态的预练习根本模子与文本LLMs进行对齐。例如，Flamingo使用感知器重采样器和门控交叉注意力层连接冻结的图像编码器和LLMs。BLIP2引入Q-Former将学习的图像查询映射到LLMs的文本嵌入空间。mPLUG-owl和MiniGPT4使用图像-指令数据集开发了遵循指令的图像-LLMs。Video-Chat和Video-ChatGPT将图像编码器扩展到视频编码器，并与LLMs连接以理解视频中的视觉内容。PandaGPT使用ImageBind的多模态编码器，专门练习在图像-指令对上，使大型模子能够理解六种模态。作者的工作属于第二种别，练习根本模子来理解视频中的视觉和听觉内容。
3. 视频大模子结构

3.1 结构

视觉-语言分支。视觉-语言分支旨在使大型语言模子（LLMs）能够理解视觉输入，有以下要点：
组成部门：

冻结的图像编码器：从视频帧中提取特征。
位置嵌入层：将时间信息注入视频帧。
视频Q-former：聚合帧级表现。
线性层：将输出视频表现投影到与LLMs文本嵌入相同的维度中。

过程：

将视频的每个帧/图像映射为图像嵌入向量。
应用位置嵌入来指示时间信息。
将位置编码的帧表现馈送到视频Q-former以获取视频嵌入。
一个线性层将视频嵌入转换为视频查询向量，与文本嵌入的维度对齐。
在前向传播中，视频查询向量与文本嵌入连接在一起，作为视频软提示，引导LLMs天生基于视频内容的文本。

实现：

使用BLIP-2的预练习视觉组件作为冻结的视觉编码器，包括来自EVA-CLIP的ViTG/14和一个预练习的Q-former。
其余组件（位置嵌入层、视频Q-former和线性层）是随机初始化并优化，以有效连接冻结的视觉编码器的输出与冻结的LLMs。

音频-语言分支。引入音频-语言分支来处理所提供视频的音频内容。旨在使LLMs能够理解并基于音频输入天生文本，要点如下：
组成部门：

预练习音频编码器：从原始音频的短片段盘算特征。
位置嵌入层：将时间信息注入音频片段。
音频Q-former：融合差别音频片段的特征。
线性层：将音频表现映射到LLMs的嵌入空间。

过程：

匀称采样M个2秒短音频片段。
使用128个mel频谱图像将每个2秒音频剪辑转换为频谱图。
音频编码器将每个频谱图映射为麋集向量。
类似于视频Q-Former，音频Q-former通过添加可学习的位置嵌入来向音频片段注入时间信息。
通过盘算位置编码的音频片段之间的交互来天生固定长度的音频特征，接纳与Q-Former相同的架构。
最后，线性层将音频特征映射到LLMs的嵌入空间。

实现：

使用预练习的Imagebind作为音频编码器。
音频编码器将每个频谱图处理为麋集向量。
音频Q-former和线性层的实现方式与视觉-语言分支中的对应部门类似，但做了相应的调整以处理音频内容。

3.2 多分支跨模态练习

作者分别练习视觉-语言和音频-语言分支。在第一阶段，使用大规模的视觉-文本数据集进行练习；在第二阶段，使用高质量的指示遵循数据集进行微调。将图像视为单帧视频处理。
视觉-文天职支，有以下要点：

数据集使用：使用Webvid-2M和CC595k数据集进行预练习。Webvid-2M包罗库存视频网站的短视频及文本形貌。CC595k数据集源自CC3M。
预练习阶段：接纳视频到文本天生任务。促使冻结的LLM天生相应的文本形貌。部门文本形貌无法充实反映视频内容，导致视觉语义与文本形貌不完全同等。预练习阶段旨在使用大量数据，使视频特征尽大概包罗更多视觉知识。
微调阶段：视觉-文本对齐和指示遵循能力留待下一个阶段。模子在信息天生方面表现精良，但遵循指令的能力有所下降。
使用高质量的指示数据对模子进行微调。整合了来自MiniGPT4、LLaVA和Video-Chat的图像和视频指令数据集。Video-LLaMA在遵循指示和理解图像和视频方面展现出显著能力。

音频-文天职支：

目的和挑战：音频-语言分支中可学习参数的目的是将冻结的音频编码器的输出嵌入与LLM的嵌入空间对齐。直接使用音频-文本数据练习音频-语言分支非常具有挑战性，由于这类数据非常稀缺。
计谋：考虑到音频-文本数据稀缺，接纳了一种变通计谋来实现目的。作者所使用的音频编码器ImageBind具有将差别模态的嵌入对齐到一个共同空间的显著能力。鉴于音频-文本数据稀缺而视觉-文本数据丰富的环境，作者使用了与视觉分支相同的数据和流程来练习音频-语言分支。得益于ImageBind提供的共享嵌入空间，纵然音频接口从未在音频数据上进行过练习，Video-LLaMA在推理过程中也表现出理解音频的能力。

4. 样例

音频-视觉整合感知能力：作者展示了Video-LLaMA同时理解听觉和视觉信息的独特能力。这两种环境下的视频都包罗音频。在每次对话中，我们分别提出与视觉和听觉内容相干的两个题目。假如模子只能吸收一种模态，那么它将无法答复这两个题目。然而，我们可以观察到Video-LLaMA在这两种环境下都精确地答复了视觉和听觉题目。
捕捉视频中的时间动态能力：作者展示了Video-LLaMA识别视频中动作的能力。它成功形貌了女孩的动作和船的移动方向。
感知和理解静态图像的能力：作者展示了Video-LLaMA感知和理解图片的能力。图2©展示了Video-LLaMA理解“不平常”概念并详细形貌不平常场景的能力。Video-LLaMA不但精确形貌了主要内容，还将其与狗和人之间友好的互动联系起来。
常识概念识别能力：作者展示了Video-LLaMA在视觉信号中识别常识概念的显著能力。Video-LLaMA成功识别了著名地标和人物，并能进行常识性题目答复。

5. 总结和限定

作者提出了多模态框架Video-LLaMA，为大型语言模子赋予了音频和视频理解能力。实行展示了Video-LLaMA在音频和视频驱动对话中的能力，突显其作为音视频人工智能助手有着巨大潜力的原型。作者开源了整个练习代码和各种模子，并提供了详细引导，以资助开发人员使用我们的代码进行进一步开发。另外，作者提供了在线演示网站和离线演示部署指南，让用户直接体验Video-LLaMA的功能。致力于不断维护和改进Video-LLaMA，并将继续为开源社区做出贡献。
现有工作也有一些可以进步的地方：

感知能力受限：当前练习数据集的质量和规模限定了Video-LLaMA的表现。作者在积极构建高质量的音频-视频-文本对齐数据集，以增强模子的感知能力。
处理长视频能力有限：长视频（如电影和电视节目）包罗大量信息，对盘算资源有更高要求。这个挑战仍旧是一个研究界正在积极努力办理的关键题目。
幻觉题目：Video-LLaMA从冻结的LLM中继承了幻觉题目。我们将继续办理这些挑战，并为视频理解开发更强大的版本。

有关本专栏的更多内容，请参考大语言模子文献调研专栏目录

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)