ToB企服应用市场:ToB评测及商务社交产业平台

标题: 视频大语言模子调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual [打印本页]

作者: 用户国营    时间: 2024-7-20 18:21
标题: 视频大语言模子调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual
本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模子产品,可以理解视频中视觉和听觉内容。和很多多模态大语言模子类似,模子结构和练习方式中规中矩,但是针对视频这种信息量丰富的数据范例,作者提出了一些创意。
有关本专栏的更多内容,请参考大语言模子文献调研专栏目录

  
模子结构:与以往仅补充LLMs处理视觉或音频信号的作品差别,Video-LLaMA通过应对两个挑战实现视频理解:
(1)捕捉视觉场景中的时序变化:作者提出了Video Q-former,将一个预练习的图像编码器组装到视频编码器中,并引入视频到文本天生任务来学习视频-语言对应关系。
(2)整合音频-视觉信号。使用通用嵌入模子ImageBind作为预练习音频编码器,并在ImageBind之上引入一个Audio Q-former,为LLM模块学习合理的听觉查询嵌入。
练习方式:和很多多模态大语言模子一样,Video-LLaMA冻结预练习视觉和音频编码器,冻结的LLMs,进行跨模态练习。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,作者首先在海量视频/图像标题对上练习Video-LLaMA,然后使用质量更高但数量适中的视觉引导数据集模子。
1. 论文的基本信息

1.1 论文资源

论文链接:https://arxiv.org/pdf/2306.02858.pdf
代码链接:https://github.com/DAMO-NLP-SG/Video-LLaMA
展示样例:https://www.youtube.com/watch?v=RDNYs3Rswhc&feature=youtu.be
论文引用:
  1. @article{zhang2023video,
  2.   title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
  3.   author={Zhang, Hang and Li, Xin and Bing, Lidong},
  4.   journal={arXiv preprint arXiv:2306.02858},
  5.   year={2023}
  6. }
复制代码
1.2 任务介绍和动机

大型语言模子(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在很多应用场景下,仅限于文本的人机交互并不敷够,真实天下的信息通常是多模态的。
现有工作的不敷。为了进一步探索LLMs的潜力,很多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交错的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预练习,以适应多模态输入。大概接纳更高效的参数方式,通过补充LLMs与现成的视觉或语音根本模子来实现多模态理解。尽管这些方法有效,但它们致力于将来自一个额外模态(即图像或音频)的输入与文本对齐,这对于视频理解来说远远不敷。要使LLMs理解视频,必要全面处理包括视觉输入、听觉输入和文本输出在内的差别模态,这比仅理解图像或仅理解音频任务更具挑战性。近期有一些研究尝试释放LLMs的视频理解能力,但它们主要目的是仅理解视频的视觉内容,而忽略了听觉内容。因此,作者的研究旨在填补加入音频的-视觉LLMs的空白,探究构建支持视频输入的多模态LLMs的大概性,使用户能够围绕用户上传的视频与盘算机进行交流。
构建端到端模子处理多模态结构。视频通常由多个视频帧和音频组成。与使用外部感知模子将视觉/听觉信号转换为文本信号差别,作者构建了一个端到端模子,可以在单个框架内处理来自多种模态的数据。接纳BLIP-2的思想来保证跨模态预练习的效率。为了明确捕捉视频中视觉场景的变化,使用预练习的视觉编码器分别盘算帧表现。然后,我们引入了帧嵌入层来注入时间信息,以及一个视频Q-Former来天生视觉查询标记。对于视频中的音频信号,我们另外使用预练习的音频编码器以及音频Q-Former来学习合理的听觉查询嵌入。
多支路跨模态预练习实现视频与文本的对齐。为了使文本输出与视频对齐,作者设计了多支路交叉模态预练习,以学习视觉-语言对应关系和音频-语言对应关系。首先在大规模视频文本数据集上对与视觉相干的组件进行预练习,然后在视频会话数据集上进行微调,以执行视觉指令调整。对于音频编码器和语言解码器之间的对齐,作者进一步在音频文本数据集上对音频相干组件进行预练习。作者使用Imagebind作为编码器,将差别模态对齐到公共嵌入空间。
2. 相干工作

**大型语言模子(LLMs)**已成为跨领域的自然语言理解和天生的强大工具,涵盖了文章、对话、故事和诗歌等多种领域。诸如LLaMA、BLOOM和OPT等开源LLMs大大推动了技术的进步,并为自然语言处理社区做出了巨大贡献。借助这些LLMs奠定的根本,研究人员进一步扩展了它们的能力,开发了针对特定自然语言处理任务的专门模子,如Vicuna和Baize。作者在这些进展的根本上,通过增强LLMs的能力,使其能够理解视频中的视觉和听觉内容,从而扩展了它们在多媒体应用中的实用性和影响力。
研究人员不停积极探索使用LLMs处理多模态输入的方法。现有方法可分为两大类。第一类是将LLMs作为控制器,使用现有的多模态模子作为工具。在这种方法中,当吸收到用户的文本指令时,LLM识别用户意图并决定调用哪些工具,然后通过整合这些现成的多模态模子得到综合性回应。例如包括ChatGPT、HuggingGPT和AudioGPT等。第二类偏重于练习根本的大规模多模态模子。这一系列工作的关键思想是将其他模态的预练习根本模子与文本LLMs进行对齐。例如,Flamingo使用感知器重采样器和门控交叉注意力层连接冻结的图像编码器和LLMs。BLIP2引入Q-Former将学习的图像查询映射到LLMs的文本嵌入空间。mPLUG-owl和MiniGPT4使用图像-指令数据集开发了遵循指令的图像-LLMs。Video-Chat和Video-ChatGPT将图像编码器扩展到视频编码器,并与LLMs连接以理解视频中的视觉内容。PandaGPT使用ImageBind的多模态编码器,专门练习在图像-指令对上,使大型模子能够理解六种模态。作者的工作属于第二种别,练习根本模子来理解视频中的视觉和听觉内容。
3. 视频大模子结构

3.1 结构

视觉-语言分支。视觉-语言分支旨在使大型语言模子(LLMs)能够理解视觉输入,有以下要点:
组成部门

过程

实现

音频-语言分支。引入音频-语言分支来处理所提供视频的音频内容。旨在使LLMs能够理解并基于音频输入天生文本,要点如下:
组成部门

过程

实现


3.2 多分支跨模态练习

作者分别练习视觉-语言和音频-语言分支。在第一阶段,使用大规模的视觉-文本数据集进行练习;在第二阶段,使用高质量的指示遵循数据集进行微调。将图像视为单帧视频处理。
视觉-文天职支,有以下要点:

音频-文天职支:

4. 样例



5. 总结和限定

作者提出了多模态框架Video-LLaMA,为大型语言模子赋予了音频和视频理解能力。实行展示了Video-LLaMA在音频和视频驱动对话中的能力,突显其作为音视频人工智能助手有着巨大潜力的原型。作者开源了整个练习代码和各种模子,并提供了详细引导,以资助开发人员使用我们的代码进行进一步开发。另外,作者提供了在线演示网站和离线演示部署指南,让用户直接体验Video-LLaMA的功能。致力于不断维护和改进Video-LLaMA,并将继续为开源社区做出贡献。
现有工作也有一些可以进步的地方:
有关本专栏的更多内容,请参考大语言模子文献调研专栏目录

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4