Oracle【EMNLP2024】面向长文本的文视频表征学习与检索模子 VideoCLIP-XL

滴水恩情 发表于 2024-11-11 22:22:04

【EMNLP2024】面向长文本的文视频表征学习与检索模子 VideoCLIP-XL

近日，阿里云人工智能平台PAI与华南理工大学金连文传授团队互助，在自然语言处理顶级会议EMNLP 2024 上发表论文《VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models》。该工作提出了一个名为VideoCLIP-XL的视频CLIP模子，旨在提升对视频的长文本描述的明白能力。这一工作构建了一个大规模的长视频描述数据集VILD，并在预训练阶段提出了一种文本相似度引导的主因素匹配方法（TPCM）来优化特性空间的学习。别的，该工作还引入了细节描述排序（DDR）和幻觉描述排序（HDR）两个新使命来进一步提升模子对长描述的明白，也建立了一个新的长视频描述排序基准测评集（LVDR）来更全面地评估模子性能。
配景

CLIP模子（Contrastive Language-Image Pre-training）在视觉-语言预训练范畴已经取得了紧张进展。然而，CLIP的一个显著范围性是处理长文本描述的能力受限，由于其文本编码器依靠于最大的位置嵌入向量长度（为77）。且已有研究发现其现实有效的词元（token）位置嵌入长度仅约为20。别的，原始CLIP训练过程中对简短的摘要性文本的夸大迫使文本/视觉编码器主要关注文本/视觉输入中的主要特性，经常忽视一些较小但潜在关键的细节。在这种情况下，现有的视频CLIP模子采用原始的CLIP训练方法大概难以准确捕捉复杂关系和属性。为了解决这些限制，增强模子明白长文本描述的能力至关紧张。
视频-长描述数据集VILD

训练 CLIP 模子通常需要大量的视觉-文本数据对。在开放范畴中，具备长描述的文本-视频数据集仍然非常稀缺。因此，我们起首计划了一个主动数据网络体系，如下图所示。我们的方法利用多个数据泉源，主要包括视频叙述数据、视频指令微调数据、原始视频、可用视频及长描述配对数据。

https://img-blog.csdnimg.cn/img_convert/f60c8df9ce68f40590070ec04ffc8d31.png

(a) 视频叙述数据。视频叙述数据通常包含由人工标注者天生的描述，能够描述整个场景、主要活动以及涉及多个脚色和物体的事件。我们采用 VidLN数据集，该数据集包含每个视频中主要人物/动物/物体及配景的个体级描述。为了使数据符合我们的目的，我们采用大语言模子（LLM）通过提示词工程将个体级叙述整合为整体描述（即描述聚合步调）。最后，考虑到训练的鲁棒性，我们进一步利用LLM重写整体级的描述（即描述重写步调）。该过程涉及天生语义相同但表述差别的多个文本描述，同时保持主要内容和细节属性不变。

(b) 视频指令微调数据。随着多模态大模子（LMM）的出现，大量视频指令微调数据集也已公开可用。比方，VideoInstruct100K包含与视频描述、基于描述的问答以及创意/天生问答相干的数据对。VideoChat包含具体的视频描述和对话，通过采用视频指令中的时间和因果内容来增强数据的多样性。这些数据集最初是为了训练一个通用的视频明白大模子，而不是只为了视频描述使命。因此，我们的方法利用LLM举行数据过滤，以排除与视频描述无关的样本。我们采用提示词工程，并提供一些示例来资助LLM取得更好的结果。最后，我们还会举行描述重写步调。

(c) 可用视频及长描述配对数据。如前所述，现有的视频-长文本描述配对数据往往受限于数量或视频的范畴/主题。在这方面，我们对这些数据集举行数据抽样操纵。具体来说，MiraData中的 5.78 万个均来自游戏及城市/风景探索场景的视频片断全部被包含。我们也从Open-Sora-Dataset随机采样了5 万条描述自然风景的长描述。

(d) 原始视频数据。为了进一步扩展训练数据的数量，我们利用LMM和LLM天生原始视频的长描述（部门原始视频数据提供了相应的短标题）。为了数据天生的效率，我们从 Panda-70M中随机抽取了200万个视频片断，这些视频片断的高质量短标题是由多个西席模子和精调的标题选择模子天生的。然后，我们从每个视频片断以相等的隔断抽取3帧作为关键帧，并利用LMM对它们举行长描述的标注。我们没有对每一帧都举行操纵，由于这将极其费时费力。接下来，在给定视频的短描述和关键帧的长描述后，我们利用LLM将它们整合为整个视频的长描述。短视频描述的辅助可以减轻帧描述中的幻觉现象。

最后，我们也采用了后处理步调，来过滤掉有害的样例。接下来，我们利用ViCLIP和Long-CLIP滤除视频-文本相似度平均值小于 0.20 的低质量的样例。最终，我们网络了凌驾 200 万对视频及长描述数据作为我们用于模子预训练的 VILD 数据集。一些统计信息的对好比下所示：

https://img-blog.csdnimg.cn/img_convert/5de6f37455f889f030c2822d84e3dc73.png
文本相似度引导的主因素匹配

CLIP模子的预训练利用视觉-文本数据对 https://latex.csdn.net/eq?%28v%2C%20t%29作为输入， https://latex.csdn.net/eq?v 可以是图像或视频，其不对具体的单模态编码器的架构做任何假设。给定一个视觉编码器 https://latex.csdn.net/eq?E_v 和一个文本编码器https://latex.csdn.net/eq?E_t，该方法起首提取单模态的特性，分别为 https://latex.csdn.net/eq?f_v%3DE_v%28v%29和 https://latex.csdn.net/eq?f_t%3DE_t%28t%29 。然后，CLIP通常采用对比学习方法和 InfoNCE丧失来学习视觉与文本之间的对应关系。具体而言，可以将其表述为：
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%7B%5Cmathrm%7BCL%7D%7D%28f_t%2C%20f_v%29%20%3D%20%5Cfrac%7B1%7D%7B2N%7D%20%5Csum%5Cnolimits_N%20%5Cmathcal%7BL%7D%5E%7Bf_t%5Crightarrow%20f_v%7D%7B%5Ctext%7BInfoNCE%7D%7D+%5Cmathcal%7BL%7D%5E%7Bf_v%5Crightarrow%20f_t%7D_%7B%5Ctext%7BInfoNCE%7D%7D%2C
其中 N 是训练批次的大小，且
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%5E%7Bf_t%5Crightarrow%20f_v%7D%7B%5Ctext%7BInfoNCE%7D%7D%20%3D%20-%5Clog%20%5Cfrac%7B%5Cexp%28sim%28f_t%2C%20f_v%5E+%20%29%20/%20%5Ctau%29%7D%7B%5Csum%7Bf_v%5Cin%20%7Bf_v%5E+%2Cf_v%5E-%7D%7D%20%5Cexp%28sim%28f_t%2C%20f_v%29%20/%20%5Ctau%29%7D%2C
反之同理。为了扩展 CLIP 模子的长描述明白能力，Long-CLIP工作提出了利用主因素匹配来针对图像范畴改进 CLIP模子。给定短描述、长描述和视觉输入https://latex.csdn.net/eq?%28st%2C%20lt%2C%20v%29，其丧失函数被表述为：
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%3D%20%5Cmathcal%7BL%7D%7B%5Cmathrm%7BCL%7D%7D%28f%7Blt%7D%2C%20f_v%29+%5Calpha_1%20%5Cmathcal%7BL%7D%7B%5Cmathrm%7BCL%7D%7D%28f%7Bst%7D%2C%20f%27_v%29%2C
其中 https://latex.csdn.net/eq?%5Calpha_1是丧失函数比例， https://latex.csdn.net/eq?f%27_v%3DPCE%28f_v%2C%2032%29。这里， PCE 是主因素提取的简称，包含三个部门：因素分解函数 F（将特性分解为差别属性的向量及其紧张性）、因素过滤函数 E（过滤掉不敷紧张的属性）、以及因素重构函数 F−1（重构特性）。在 E 的实现中，Long-CLIP 选择了最紧张的 32 个属性作为保存的属性。然而，当将其扩展到视频预训练时，我们发现由于视频通常包含比图像更丰富的内容和更多的细节，这种固定策略无法在学习过程中动态的顺应视频 CLIP 模子高维特性空间的变革。因此，我们利用 https://latex.csdn.net/eq?lt和 https://latex.csdn.net/eq?st之间的文本特性余弦相似度作为指导 PCE 过程的信号，如下图所示：

https://img-blog.csdnimg.cn/img_convert/8b09814a9f4d751ad2e94511139bb580.png

因此，我们将 https://latex.csdn.net/eq?f%27_v 重新写为：
https://latex.csdn.net/eq?%5Chat%7Bf%7Dv%20%3D%20%5Cmathrm%7BPCE%7D%28f_v%2C%5C%20%5Cmathcal%7BG%7D%28sim%28f%7Blt%7D%2C%20%5C%20f_%7Bst%7D%29%29%29%2C
其中 https://latex.csdn.net/eq?%5Cmathcal%7BG%7D表示我们按照紧张性降序保存属性的操纵，直到https://latex.csdn.net/eq?f%27_v和 https://latex.csdn.net/eq?f_v之间的相似度到达https://latex.csdn.net/eq?lt和 https://latex.csdn.net/eq?st 之间的相似度。
描述排序使命

我们以为，能够明白长描述的视频 CLIP 模子应当体现两个特性：给定一个视频及其相干描述，模子应该对（1）具有更丰富和更准确的细节描述以及（2）在相同细节程度下更准确即幻觉更少的描述赋予更高的分数。为此，我们提出两个新的预训练使命：细节描述排序（DDR）和幻觉描述排序（HDR）。我们的准备工作包括利用句法分析工具如 NLTK和 spaCy对原始的长描述举行词性标注和句法结构解析。

https://img-blog.csdnimg.cn/img_convert/8edfec5039363b9a5650c1506758c7ad.png

接着，我们为每个视频合成多个长描述，以便举行DDR和HDR训练。如上图（a）所示，对于HDR使命，在每一步中，我们有选择性地将特定单词（名词、数字、颜色或与方向相干的术语、动词）替换为同一句法类别下的语义相异的对应词（比方，将“男孩”替换为“女孩”，将“白色”替换为“蓝色”，将“扔”替换为“举”），并举行 m−1 次如许的替换。该方法天生一系列幻觉越来越严峻的描述，记为 https://latex.csdn.net/eq?%5Cmathbf%7Bt%5EH%7D%3D%7Bt%5EH_1%2C%20t%5EH_2%2C%20%5Cldots%2C%20t%5EH_%7Bm%7D%7D。

雷同地，如上图（b）所示，对于DDR使命，我们在每一步随机删除当前长描述中的子句、形容词、数字或句法子树。这一过程递归天生 m−1 个细节渐渐减少的描述，表示为https://latex.csdn.net/eq?%5Cmathbf%7Bt%5ED%7D%3D%7Bt%5ED_1%2C%20t%5ED_2%2C%20%5Cldots%2C%20t%5ED_%7Bm%7D%7D。对于 https://latex.csdn.net/eq?%5Cmathbf%7Bt%5EH%7D 或 https://latex.csdn.net/eq?%5Cmathbf%7Bt%5ED%7D ，给定相同的对应视频，我们希望模子能够对描述序列中较早出现的描述天生更高的相似度分数。比方，对于 DDR 使命，我们将丧失函数公式化如下：
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%7B%5Cmathrm%7BDDR%7D%7D%3D%20%5Cfrac%7B1%7D%7B%5Cfrac%7Bm%28m-1%29%7D%7B2%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm-1%7D%20%5Csum_%7Bj%3Di+1%7D%5Em%20%5Cmathrm%7BReLU%7D%28-%28%5CDelta%5ED_%7Bi%2Cj%7D-%5Calpha_%7BD%7D%29%29%2C
其中 https://latex.csdn.net/eq?%5Calpha_%7BD%7D是相似度差异的阈值，且
https://latex.csdn.net/eq?%5CDelta%5ED_%7Bi%2Cj%7D%20%3D%20sim%28f_%7Bt%5ED_i%7D%2Cf_v%29%20-%20sim%28f_%7Bt%5ED_j%7D%2Cf_v%29.
同样，对于 HDR使命，我们有以下丧失函数：
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%7B%5Cmathrm%7BHDR%7D%7D%20%3D%20%5Cfrac%7B1%7D%7B%5Cfrac%7Bm%28m-1%29%7D%7B2%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm-1%7D%20%5Csum_%7Bj%3Di+1%7D%5Em%20%5Cmathrm%7BReLU%7D%28-%28%5CDelta%5EH_%7Bi%2Cj%7D-%5Calpha_%7BH%7D%29%29.
预训练过程中总丧失函数为：
https://latex.csdn.net/eq?%5Cmathcal%7BL%7D%3D%20%5Cmathcal%7BL%7D_%7B%5Cmathrm%7BCL%7D%7D%28f_%7Blt%7D%2C%20f_v%29+%5Calpha_1%20%5Cmathcal%7BL%7D_%7B%5Cmathrm%7BCL%7D%7D%28f_%7Bst%7D%2C%20f%27_v%29+%5Calpha_2%20%5Cmathcal%7BL%7D_%7B%5Cmathrm%7BDDR%7D%7D+%5Calpha_3%20%5Cmathcal%7BL%7D_%7B%5Cmathrm%7BHDR%7D%7D%2C
其中https://latex.csdn.net/eq?%5Calpha_%7B2%7D和 https://latex.csdn.net/eq?%5Calpha_%7B3%7D是丧失函数比例的超参数。
视频长描述排序使命及测评集 LVDR

幻觉在当代大语言模子（LLM）和多模态大模子（LMM）范畴都是值得关注的题目。对于一个视频，具备明白长文本能力的视频 CLIP 模子理所应当地应该具备辨别长描述中正确与错误文本的能力。为了更好地评估这种能力，我们提出了视频长描述排序（LVDR）测评集。我们起首从 Shot2Story中随机抽取了 2000 对视频和对应的长描述。接着，我们执行一个雷同于HDR使命的数据合成过程，迭代 p-1 次，并在每次迭代中更改 q 个单词，最终产生了 p 个长描述，其幻觉程度渐渐增长。我们将如许的子集表示为 p × q，并构建了五个子集：{4 × 1, 4 × 2, 4 × 3, 4 × 4, 4 × 5}。下图中提供了代表性的示例：

https://img-blog.csdnimg.cn/img_convert/3797962c0229ac2608fb552fafbf10cc.png

视频CLIP模子需要能够根据视频内容正确地按相似度降序排列这些长描述。
实验结果

我们的方法在常见的文本-视频检索测评集上的zero-shot结果如下表所示：

https://img-blog.csdnimg.cn/img_convert/e6cbd5653758383f53b7f1ce84798744.png

而在常见的文本-视频检索测评集上的fine-tuned结果如下表所示：

https://img-blog.csdnimg.cn/img_convert/a16aa71ad9bad2d3c8b49708d7d6f401.png

可以看出，我们的方法相比同类的模子而言具有显著的良好性。在长描述的文本-视频检索测评集Shot2Story上的zero-shot结果如下：

https://img-blog.csdnimg.cn/img_convert/9a392b9940ddc4a47f018b321a5cdd49.png

在我们提出的LVDR测评集上的结果表现如下：

https://img-blog.csdnimg.cn/img_convert/928d97e04b38ab7697ec7fbae3655841.png

可以发现，我们的模子在各个使命和数据集上都能取得较好的表现。

一些文到视频检索使命的例子如下所示：

https://img-blog.csdnimg.cn/img_convert/6ea1235808699cd6ec5813fb8929eaca.png
参考文献

[*] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning transferable visual models from natural language supervision. In ICML, volume 139, pages 8748– 8763.
[*] Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. InternVid: A large-scale video-text dataset for multimodal understanding and generation. arXiv preprint arXiv:2307.06942.
[*] Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, and Jiaqi Wang. 2024. Long-CLIP: Unlocking the long-text capability of CLIP. arXiv preprint arXiv:2403.15378.
[*] Mingfei Han, Linjie Yang, Xiaojun Chang, and Heng Wang. 2023. Shot2Story20K: A new benchmark for comprehensive understanding of multi-shot videos. arXiv preprint arXiv:2311.17043.
论文信息

论文名字：VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
论文作者：汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文
论文pdf链接：https://arxiv.org/abs/2410.00741

阿里云人工智能平台PAI恒久招聘研究实习生。团队专注于深度学习算法研究与应用，重点聚焦大语言模子和多模态AIGC大模子的应用算法研究和应用。简历投递和咨询：chengyu.wcy@alibaba-inc.com。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

【EMNLP2024】面向长文本的文视频表征学习与检索模子 VideoCLIP-XL