LAFF 文本到视频检索的新基准

登录 · 发表于 2026-1-14 10:37:53

这篇文章提出了一种新颖机动的特性融合方式，只管很简朴，但好像是这一范畴的经典基准之一，读了许多遍，感觉还是很有可取之处，以是写了这篇条记。不外论文中提到的融合方法在其他范畴不肯定有效，必要根据现实情况调解。
配景

文本到视频检索是指从大量未标记的视频中直接检索到文本查询的视频。视频和文本都必须嵌入到一个或多个跨模态公共空间，以举行文本到视频的匹配。本文讨论怎样融合来自差异模子提取的视频/文本表现，来获取最佳的匹配表现，这是文本到视频检索的一个告急但尚未充实探索的主题。
给定由差异特性表现的视频/文本样本，特性融合旨在答复一个根本的研究题目，即什么是组合这些特性的最佳方式？所谓最优，是指融合后的检索性能到达最大。同时，融合过程应该是可表明的，以表明单个特性的告急性。
模子

题目界说

本文提出了视频端和文本端的可训练特性融合。详细来说，对于一个特定的视频xxx，大概得到一组k1k_1k1个视频级特性表现fv,1(x),…,fv,k1(x){f_{v,1}(x),…,f_{v,k_1} (x)}fv,1(x),…,fv,k1(x)，这些表现是利用差异的网络提取的。相似的，对于一个特定的文本查询qqq，由一组k2k_2k2个句子级特性ft,1(q),…,ft,k2(q){f_{t,1}(q),…,f_{t,k_2} (q)}ft,1(q),…,ft,k2(q)。作者的目标是构建两个特性融合块，融合这些特性形成视频和查询文本的ddd维跨模态嵌入e(x)e(x)e(x)和e(q)e(q)e(q)，如许，我们可以通过盘算e(x)e(x)e(x)和e(q)e(q)e(q)之间的语义相似度举行文本-视频匹配，即：
e(x):=fusionv(fv,1(x),…,fv,k1(x))e(x):=fusion_v({f_{v,1}(x),…,f_{v,k_1} (x)})e(x):=fusionv(fv,1(x),…,fv,k1(x))e(q):=fusiont(ft,1(q),…,ft,k2(q))e(q):=fusion_t({f_{t,1}(q),…,f_{t,k_2} (q)})e(q):=fusiont(ft,1(q),…,ft,k2(q))s(x,q):=similarity(e(x),e(q))s(x,q):=similarity(e(x),e(q))s(x,q):=similarity(e(x),e(q)) 对给定查询qqq的文本到视频检索是通过根据s(x,q)s(x, q)s(x,q)降序对测试聚集中的全部视频举行排序来实现的。
LAFF(Lightweight Attention Feature Fusion)

本文提出了一个非常简化的特性融合块，称为轻量级留意特性融合(LAFF)。其结构如图所示，LAFF是通用的，可用于视频和文本端。

在特定的LAFF块中，利用学习到的组合权重来优化跨模态文本到视频的匹配。在特性级别举行融合，可以被视为一种早期的融合方法。同时，利用多头留意的本领，可以在单个网络中摆设多个LAFFs，并以后期融合方式将其产生的相似性组合在一起，进一步提升网络性能。
LAFF Block

对于要举行融合利用的kkk个差异特性f1,…,fk{f_1,…, f_k}f1,…,fk，由于差异的提取器大概具有差异的维度，起首要利用特性转换层将差异的特性校正为雷同的长度。要将iii维特性转换为新的ddd维特性，利用：fi′=σ(Lineardi×d(fi))f'_i=\sigma(Linear_{d_i×d}(f_i))fi′=σ(Lineardi×d(fi)) 固然转换后的特性{f ’ i}现在是可比力的，但它们对于表现视频/文本内容并差异等告急。因此我们思量加权融合，即：f^=∑ikαifi′\hat f=\sum^k_i\alpha_if'_if^=i∑kαifi′，这些权重是通过一个线性变动和softmax函数得到的：{α1,...,αk}=softmax(Lineard×1({f1′,...,fk′}))\{\alpha_1,...,\alpha_k\}=softmax(Linear_{d×1}(\{f'_1,...,f'_k\})){α1,...,αk}=softmax(Lineard×1({f1′,...,fk′})) 如图1所示，当将权重欺凌为匀称时，即ai=1/ka_i = 1/kai=1/k时，无留意力特性融合块是LAFF的一种特殊情况。相对于这种情况（Attention-free）, LAFF必要学习的参数更多，见表2。

LAFF可以作为融合函数被直策应用在文本到视频检索中。然而，由于视频和文本内容的高度复杂性，作者假设单一设置对于跨模态表现和匹配是次优的。借用MHSA的多头头脑，通过摆设hhh对LAFFs，此中每对LAFFs共同确定视频文本匹配的潜伏公共空间，计划了多头LAFF。详细来说，一个特定的LAFFs对，表现为<LAFFv,i,LAFFt,i><LAFF_{v,i}, LAF F_{t,i}><LAFFv,i,LAFFt,i>，将视频/文本特性聚合到一个d维跨模态嵌入向量ei(x)/ei(q)e_i(x)/e_i(q)ei(x)/ei(q)中，即：ei(x):=LAFFv,i(x)e_i(x):=LAFF_{v,i}(x)ei(x):=LAFFv,i(x)ei(q):=LAFFt,i(q)e_i(q):=LAFF_{t,i}(q)ei(q):=LAFFt,i(q)si(x,q):=1h∑i=1hsi(x,q)s_i(x,q):=\frac1h\sum^h_{i=1}s_i(x,q)si(x,q):=h1i=1∑hsi(x,q) 终极利用的相似度就是这些多头相似度的均匀。这一结构如图2：

到现在为止，我们假设要融合的功能都在视频级。究竟上，由于LAFF具有很高的机动性，它可以很轻易地扩展为多级变体，以处置惩罚差异帧级和视频级特性共存的情况。图3体现了这种变体，称之为LAFF−mlLAFF-mlLAFF−ml。LAFF−mlLAFF-mlLAFF−ml以自下而上的方式工作，此中一组特定的帧级特性通过特定的LAFF块聚合以产生视频级特性。假设有两个差异的帧级特性，比方clip和rx101。每个都有本身的LAFF块。(由此产生的)差异的视频特性然后通过视频级LAFF块融合。

实验

为了评估LAFF的有效性，作者在MSR-VTT上举行溶解研究，以从多个方面评估LAFF。然后，将基于laff的检索模子与开始辈的MSR-VTT和其他三个盛行的基准(包罗MSVD, TGIF和VATEX)举行比力。为了在更大的聚集上评估，在TRECVID AVS基准系列上举行了评估。
溶解实利用用了这些模子提取特性，如果是细粒度的，则举行均匀池化。

溶解实验

作者起首辈行了溶解实验，对于视频和查询文本两端，控制一端稳固，只改变另一端的特性，通过渐渐添加预训练模子来得到性能曲线，如图4：

为了比力特性融合块。通过将图2中的LAFF分别更换为MHSA和Attention-free来比力三种特性融合块。效果如表4所示，LAFF取得了最佳效果：

可视化

为了探索模子的可表明性作者对特性选择的LAFF权重举行可视化，图5体现了MV-test3k测试会合选择的视频及其相干字幕的LAFF权重。我们观察到，当视频内容包罗更多的活动时，3D-CNN特性得到的权重更大，如图5(b)所示。对于每个特性，其权重在样本上的均匀值反映了其对检索性能的贡献。作者用排名前三的视频/文本特性重新训练模子。与完备设置(mAP为0.358)相比，简化模子的mAP为0.353，这意味着性能丧失相对较小，仅为1.4%。因此，LAFF权重有助于特性选择：

对比试验

作者进一步纳入MSVD、TGIF和VATEX。对于MSVD和TGIF，依照他们的官方数据分割。对于VATEX，依照HGR中利用的数据分割。对于MSR-VTT，除了官方的MVtest3k分割外，作者还陈诉了另一种盛行的数据分割的性能，此中9k视频用于训练，1k用于测试。称之为分裂MV-test1k。实验效果如表7所示：

由于包罗了更好的clip-ft特性，其性能比溶解研究中报道的要好。基线(JE, w2vv++， SEA和MMT)比利用单个特性(clip-ft)得到的效果更差。效果表明，不能想固然地以为添加更好的特性就会产生更好的性能，必要对特性融合举行智能计划。所提出的LAFF在全部测试集上始终体现最好。LAFF-ml优于LAFF，分析在多个条理上机动利用LAFF可以进一步进步性能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

LAFF 文本到视频检索的新基准

本帖子中包含更多资源

宁睿