文章信息:
发表于:WSDM '24
原文链接:https://dl.acm.org/doi/10.1145/3616855.3635757
ABSTRACT
文本-视频检索是一项旨在根据文本查询识别相干视频的挑战性任务。与传统文本检索相比,文本-视频检索的主要难点在于文本查询与视频内容之间的语义鸿沟。先前的研究主要侧重于通过精致聚合词-帧匹配信号来对齐查询和视频。受人类模块化判断文本与视频相干性的认知过程启发,由于视频内容的一连性和复杂性,这种判断须要高阶匹配信号。 本文提出了一种块级文本-视频匹配方法,其中查询被分解为描述特定检索单位的语义块,而视频被分割为独立的片段。我们将块级匹配建模为查询词与视频帧之间的多元关联,并引入多模态超图举行多元关系建模。通过将文本单位和视频帧表示为节点,并用超边刻画它们之间的关系,构建了一个多模态超图。这样,查询和视频可以在高阶语义空间中对齐。 此外,为了加强模子的泛化能力,提取的特征被输入变分推断组件举行计算,得到高斯分布下的变分表示。超图和变分推断的结合使我们的模子可以或许捕获文本和视觉内容之间复杂的多元交互。实验结果表明,所提出的方法在文本-视频检索任务上达到了开始辈的性能。
1 INTRODUCTION
文本-视频检索(TVR)是一项多模态任务,旨在根据文本查询找出最相干的视频。TVR使人类可以或许以简朴自然的方式搜索视频,因而吸引了多个研究领域的广泛关注[35,37]。与传统的单模态检索(如特定检索)不同,文本-视频检索须要在不同模态间举行操纵。因此,该任务极具挑战性,因为它不仅须要理解视频和文本的内容,还须要理解它们之间的跨模态关联。
跨模态语义表征与对齐是文本-视频检索任务的焦点[17,36]。现有研究主要分为两类:一类聚焦跨模态语义表征,另一类侧重跨模态语义对齐。基于预训练表征的上风,CLIP[28]和CLIP4CLIP[24]将文本查询与视频嵌入共享语义空间计算相似度。然而这类方法生成的查询表征较为粗糙,难以捕获细粒度交互。为此,另一系列研究[1,25,32]采用注意力机制捕获文本词汇与视频帧的交互关系,实现了明显性能提升。这些方法通过不同粒度学习对齐策略,推动了该任务的希望。但跨模态语义对齐仍存在系统性探索空间。
然而,基于给定文本查询检索最相干视频仍面临严峻挑战。如图1所示,该任务要求模子精准理解文本描述与视频中各语义块的关键细节(如实体"詹姆斯"、“特朗普”、"NBA球员"及动作"跪地"等关系),即对构成内容的基础概念举行模块化解析。更紧张的是,捕获视频与文本间的复杂关联不仅须要细粒度的词-帧对应(如现有方法所示),还需建模多元交互关系(如图1所示,文本块3+4与视觉块[帧3+帧m]存在语义关联)。当文本块3与4组合表达"NBA球员抗议种族不同等"变乱时,对应的视觉块[帧3+帧m]也呈现相同语义。通过同步解析文本块与视觉块,二者关联性可被清晰辨识。这一征象揭示了多模态语义块在文本-视频检索中的关键作用,而现有研究对此尚未充分探索。
在基于文本查询检索最相干视频时,尽管语义特征分散在多个词/帧中,人类仍能识别并聚类文本/视频中的关键概念块[4],进而通过精致聚合这些特征块间的语义关系来判断文本-视频相干性。受此启发,本文提出多模态超图变分推理网络(LEAN),通过为每个文本查询及对应视频构建多模态超图来模仿这一机制,有效捕获不同模态间的多元关联。具体而言,我们起首为每个训练样本构建多模态超图,将文本单位和视频帧表示为超图布局;随后模子自动学习超图边与节点的权重,以捕获词与帧间的埋伏关联;为加强泛化能力,我们将超图输入变分推理模块,将节点和超边表征转化为高斯分布。通过这种分布化表征,模子能更好地捕获检索任务中语义关系的埋伏分布规律。超图与变分推理的结合使我们的模子可以或许捕获文本与视频间复杂的多元交互,并融合多类型关联,为实际应用提供了抱负解决方案。实验表明,该模子在文本-视频检索任务上达到了开始辈的性能。我们的主要贡献如下:
- 技能创新:我们设计了一种新颖的文本-视频检索框架,用于捕获文本与视频间复杂的多元交互关系。据我们所知,这是初次将超图网络引入文本-视频检索任务的研究工作。
- 方法创新:构建了包含三类超边的多模态超图布局,同时融合模态内与模态间关联,并设计多模态超图网络来捕获词与帧的埋伏接洽。此外,创新性地引入基于变分推理的图表示学习方法以加强模子泛化能力。
- 实验验证:在基准数据集上的大量实验结果表明,我们的方法明显优于现有最优模子,充分验证了其有效性。
2 PRELIMINARIES
文本-视频检索(TVR)是一种跨模态信息检索任务,旨在根据给定的文本查询检索相干视频或根据视频检索相干文本。该任务须要对文本和视觉内容举行匹配对齐以检索最相干视频。对于文本查询,输入为词序列 q t q_t qt,输出为最相干视频集合 V t V_t Vt,其中每个视频 v i ∈ V t v_i\in V_t vi∈Vt都与文本查询 q t q_t qt相干联。TVR的孪生任务是视频-文本检索,其输入 q v q_v qv表示视频表征,输出为最相干文本集合 T v T_v Tv,其中每个文本 t i ∈ T v t_i\in T_v ti∈Tv都与视频查询 q v q_v qv相干联。本任务利用的符号包括: q t q_t qt表示文本查询, q v q_v qv表示视频查询, V t V_t Vt表示与 q t q_t qt相干的视频集合, T v T_v Tv表示与 q v q_v qv相干的文本集合。
超图(Hypergraph)是一种扩展了传统图布局的数学模子,其焦点特征在于超边(hyperedge)可以同时连接任意数量的节点,突破了普通图中边只能连接两个节点的限定。具体而言,一个超图可以情势化表示为三元组G=(X,E,P),其中X={x₁,x₂,…,xₙ}表示节点集合,E={e₁,e₂,…,eₘ}是由多个超边组成的集合,而P∈ℝ{m×m}是一个可选的对角矩阵,用于表示各超边的权重。这种布局通过关联矩阵H∈{0,1}{n×m}来精确描述节点与超边的隶属关系,其中矩阵元素H_{i,j}取值为1当且仅当节点x_i属于超边e_j。超图的这种高阶表达能力使其特别恰当建模复杂的多元关联关系,在文本-视频检索等须要处理多模态关联的任务中展现出独特上风。
超图是一种特殊的图布局,其焦点特征在于可以或许通过超边(hyperedges)连接两个或多个节点,常用于表示多元关联[10]。情势上,超图定义为 G = ( X , E , P ) G=(X,\mathcal{E},\mathcal{P}) G=(X,E,P),包含三个组成部分:节点集 X = { x 1 , x 2 , … , x n } X=\{x_1,x_2,\ldots,x_n\} X={x1,x2,…,xn}、超边集 E = { e 1 , … , e m } \mathcal{E}=\{e_1,\ldots,e_m\} E={e1,…,em},以及可选的超边权重对角矩阵 P ∈ R m × m \boldsymbol{P}\in\mathbb{R}^{m\times m} P∈Rm×m。该布局可通过关联矩阵 H ∈ { 0 , 1 } n × m H\in\{0,1\}^{n\times m} H∈{0,1}n×m表示,其中每个元素 H i , j H_{i,j} Hi,j定义为:当节点 x i x_i xi属于超边 e j e_j ej时取值为1,否则为0。这种表示方法能有效捕获复杂的高阶关联关系。
通过这种方式,每条超边 e j e_j ej连接所有相干节点 x i x_i xi,从而揭示它们之间的关联性。本文采用超图概念来表征文本内容与视觉内容之间的多元关联,为建立语义块之间的复杂关联关系提供了强有力的建模工具。
3 OUR FRAMEWORK
本节介绍我们提出的多模态超图变分推理网络(LEAN)框架,用于解决文本-视频检索任务。如图2所示,LEAN包含两大焦点模块:多模态超图网络和变分推理模块。在多模态超图网络模块中,我们为每个文本查询和视频构建多模态超图,通过将文本单位和视频帧表示为节点、利用超边刻画其关联关系,有效捕获不同模态间的多元关联,从而缓解多模态数据匹配的挑战。为了得到最优超图布局,模子自动学习超图权重,以捕获文本与视觉模态间的埋伏关联。变分推理模块将超图表征转化为高斯分布,这一设计明显加强了模子在跨模态场景下的泛化能力,从而得到更精准的检索预测结果。
3.1 Multi-Modal Hypergraph Networks
文本-视频检索须要从文本和视觉双模态中提取关联关系。为有效捕获不同模态间复杂的高阶关联,我们提出多模态超图网络模块,该模块通过利用多元关键关联来促进高阶关系的理解。具体而言,该模块包含三个焦点组件:节点选择与初始化、多模态超边构建以及超图注意力网络。
3.1.1 Node Selecting and Initialization.
为加强文本与视频信息的融合,我们选择性地将关键内容指定为超图节点。设输入视频为 V \mathcal{V} V,对应文本查询为 S \mathcal{S} S,该多模态超图包含视觉节点和文本节点两类基础节点。
对于视觉节点的处理,我们采用多种关键帧检测方法,选取视频内容差异明显的帧作为增补视觉信息。设 I = I 1 , I 2 , . . . , I m I={I_1,I_2,...,I_m} I=I1,I2,...,Im表示视频 V V V中检测到的帧集合,这些帧通过VGG16网络举行初始化,具体方式如下:
在文本节点处理方面,我们选取三元组(文本块)作为构建超图的节点。具体而言,起首利用Stanford CoreNLP工具 1 ^1 1识别句子中的三元组,随后采用BERT模子[6]学习这些三元组的上下文表征,并依下式对文本节点举行初始化:
其中 x w k , 0 x^{w_k,0} xwk,0表示句子 S S S中单词 w k w_k wk的文本特征向量, w k w_k wk代表输入句子 S S S所选三元组中的第 k k k个单词, n n n为文本节点总数。
3.1.2 Multi-modal Hyperedges.
该多模态超图包含三类节点:视频节点、帧节点和文本节点。这些节点通过超边连接以建立多元关键关联。为捕获文本与视频间的高阶相干性,我们设计了三种超边类型:全局超边(连接所有模态节点)、模态内超边(连接同模态节点)和跨模态超边(连接不同模态节点)。
Global hyperedges.
为推断节点间埋伏的关联性与相似性,我们设计了全局超边。这类超边连接超图中所有节点,用于捕获全模态间的全局关联。具体而言,我们将全局超边的输入定义为:
其中每条超边连接 |