视频天生的测试时Scaling时候!清华开源Video-T1,无需重新训练让性能飙升 ...

打印 上一主题 下一主题

主题 1992|帖子 1992|积分 5976

来源 | 机器之心
视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关告急。视频天生作为天生式 AI 的一个告急方向,其性能现在主要通过增大基础模子的参数量和预训练数据实现提升,更大的模子是更好表现的基础,但同时也意味着更苛刻的计算资源需求

受到 Test-Time Scaling 在 LLM 中的应用开导,来自清华大学、腾讯的研究团队初次对视频天生的 Test-Time Scaling 进行探索,表明了视频天生也能够进行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展这一 Scaling 范式。

现在,这项工作的代码已经开源,感爱好的小搭档可以开 Issue 提问,也欢迎共同探索视频和多模态天生。






  • 论文标题:Video-T1: Test-Time Scaling for Video Generation
  • 论文地址:https://arxiv.org/pdf/2503.18942
  • Github 仓库: https://github.com/liuff19/Video-T1 
  • 项目主页: https://liuff19.github.io/Video-T1/

,时长00:52

视频天生的 Test-Time Scaling 范式

继 DeepSeek-R1 爆红后,在视觉 / 多模态等差别领域都涌现了大量 Test-Time Scaling (TTS) 研究,Video-T1 则是初次将 Test-Time Scaling 引入视频天生领域,突破了传统方式 Scaling up 视频模子必要大量资源重新训练或明显扩大模子规模的局限性。

研究团队通过增加推理阶段计算来明显提升视频天生质量,在 VBench 上实现了最高 5.86% 的总分提升,同时发现模子本领随着推理阶段选取的样本数目增加而增长,体现出一连 Scale Up 的特性



视频天生Test-Time Scaling的实行结果

研究团队创新性地将视频天生中的 Test-Time Scaling 问题建模为从高斯噪声空间到目标视频分布的轨迹搜刮问题,为优化视频天生引入了新的理论框架。同时构造了随机线性搜刮作为 Test-Time Scaling 的基础实现方式,即随机地取样多个视频天生样本,利用 VLM 进行评分选出最优的视频样本作为输出。



随机线性搜刮的算法

Tree-of-Frames 方法提升推理服从

然而,随机线性搜刮的复杂度较高,必要较多的推理时计算,研究团队发现,很多视频在天生的过程中就会出现内容与提示词不对应大概不符合现实规律等诸多问题,为了进一步提高搜刮速率和视频质量,研究团队提出了「帧树」(Tree-of-Frames, ToF),通过自顺应扩展和修剪视频分支,在计算成本与天生质量间实现动态平衡

类似于在推理模子中利用 score model,研究团队提出利用测试时验证器(test-time verifiers)评估中心结果质量,并结合开导式算法高效导航搜刮空间,在视频天生的适当位置进行评估,选取符合要求的天生轨迹,明显提升天生服从和质量。



研究团队提出的 Tree-of-Frames 算法

相比于直接进行随机线性搜刮,Tree-of-Frames 方法能够在取得类似效果的情况下明显提高搜刮服从,低落视频模子的推理计算需求。

研究团队通过比较差别 Test-Time Scaling 方法和差别样本数量对应的 Number of Function Evaluations (NFE) 及对应的表现,发现利用 Tree-of-Frames 方法能够在类似 NFE 的情况下更为明显地提高视频表现。



差别模子下 Tree-of-Frames 与随机线性搜刮效果对比

研究团队选取了三种视频天生模子实现 Tree-of-Frames 方法,并计算其视频模子的推理计算需求,在 VBench 总分类似的情况下进行比较,发现 Tree-of-Frames 明显低落了视频模子推理计算量。



Tree-of-Frames 方法相比于随机线性搜刮明显提高了推理服从

此外,研究团队注意到首帧对于视频整体是否对齐影响较大,视频的前中后部门存在一定水平差别的提示词对齐需求,因此利用单帧的图片天生思维链 (Image Generation Chain-of-Thought) 和层次化提示词 (Hierarchical Prompting) 等方法,对帧的天生和提示词对齐进行增强,构建了 Tree-of-Frames 总体流程。



研究团队提出的 Tree-of-Frames 方法流程图

在上图所示的流程中,第一阶段执行 Text-to-Image (First Frame) 天生,进行图像级别的对齐,让首帧能够包含精确且充足的关于物体、场景的语义信息;第二阶段在测试时 Verifier 中应用层次化提示词 (Hierarchical Prompting),关注运动稳定性与物理合理性等方面,从而提供反馈,引导开导式搜刮过程;末了一阶段评估视频的整体质量,并选择与文本提示词最高对齐度的视频

差别模子的 Test-Time Scaling 实行

研究团队进行了大量 Test-Time Scaling 实行,利用不同的视频天生模子、VLM 模子进行测试,得到这些模子相比于基线在 VBench 上各方面指标的提升。



差别维度上 Test-Time Scaling 方法相比于基线的提升

实行结果表明,无论是基于 Diffusion 的模子还是 Autoregressive 范式的模子,都能够通过 Test-Time Scaling 方法实现天生视频性能的全面提升,而无需重新训练一个视频天生模子。

研究团队还注意到,利用差别的 VLM 作为 Verifier 对视频天生质量在多种维度的提升效果有所差别。

因此,为了更充分地发挥 Test-Time Scaling 的潜力并为后续增强 VLM 本领的探索提供思路,研究团队将差别的 Verifier 进行综合,用于 Test-Time Scaling 过程,发现在类似的 NFE (Number of Function Evaluations) 下 Multiple Verifier 相比于单个 Verifier 效果更好。差别 VLM 和视频天生模子对应的结果如下:



Multiple Verifier 与单个 Verifier Scaling Up 效果对比

可视化结果

研究团队提供了 Tree-of-Frames 层次化提示词和过程中验证的可视化结果:



层次化提示词和分层验证过程的可视化结果

研究团队还提供了视频天生基础模子和 TTS 结果的对比,更多的可视化请参阅原论文和项目主页。



部门可视化结果,从上到下为未 Test-Time Scaling 和进行 Test-Time Scaling 的视频对比

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

三尺非寒

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表