STAR: 使用时空注意力机制和动态频率丧失的视频超分辨率增强框架 ...

打印 上一主题 下一主题

主题 831|帖子 831|积分 2493

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率办理方案,针对现有模型中存在的过度平滑和时间一致性不敷等问题进行了体系性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模本领,有用处理惩罚复杂退化场景下的视觉伪影,同时办理了强天生模型导致的保真度丧失问题。STAR的核心创新在于引入局部信息增强模块(LIEM)用于增强空间细节重建本领,并设计了动态频率(DF)丧失函数,通过在扩散过程中对频率分量进行自适应调节来提升重建质量。实行表明,该方法在合成数据集和真实场景数据集上均优于现有开始辈的方法。

技能方法


STAR框架由四个核心组件构成:变分自编码器(VAE)、文本编码器、ControlNet以及集成LIEM的T2V模型。其工作流程如下:

  • VAE负责将高分辨率和低分辨率视频映射至潜在空间
  • 文本编码器天生高级语义信息的嵌入表现
  • ControlNet使用上述潜在表现和文本嵌入引导T2V模型的天生过程
  • T2V模型在扩散步骤中预测噪声速度以完成视频质量重建
在优化策略方面,STAR采用速度预测目的来最小化预测误差,并通过创新性的动态频率丧失来提升重建保真度。该丧失函数能够根据扩散过程动态调整高频和低频成分的约束强度。最终的丧失函数将速度预测目的与DF丧失进行时序加权组合。
局部信息增强模块设计


传统T2V模型重要依赖全局注意力机制,这种架构固然在视频天生任务中体现出色,但在现实视频超分辨率应用中存在显着局限性。详细体如今处理惩罚复杂退化模式和捕获局部细节特征方面的本领不敷,往往导致输出结果存在含糊和伪影问题。

LIEM模块的设计正是针对这些限制。该模块置于全局注意力层之前,通过结合匀称池化和最大池化操作突出关键特征,随后由全局注意力机制进行处理惩罚,从而实现对局部细节信息的有用提取和增强。
动态频率丧失机制


扩散模型强大的天生本领在视频重建任务中可能导致保真度降低。研究发现,扩散过程具有显着的阶段性特征:早期阶段重要重建低频结构信息,后期阶段则侧重于优化高频细节如边缘和纹理。基于这一观察,STAR提出了针对性的丧失函数设计方案。

所提出的DF丧失通过频率域解耦方式分别优化结构(低频)和细节(高频)重建质量。详细实现过程为:

  • 在每个扩散步骤中重建潜在视频表现
  • 应用离散傅里叶变更分离频率成分
  • 分别盘算低频和高频丧失
  • 通过动态权重函数调整优化重点,在早期步骤优先保证低频保真度,后期步骤则着重提升高频保真度
实行验证


STAR方法与多个先辈基线方法(包括Real-ESRGAN、DBVSR、RealBasicVSR、RealViformer等)在合成和真实数据集上进行了体系性对比实行。实行结果表明:

  • 定量评估:- 在合成数据集上,STAR在80%的评估指标上到达最优性能,PSNR指标位居第二,充分验证了其在细节重建、保真度和时间一致性方面的上风- 在真实场景数据集上,展现出优秀的空间和时间质量重建本领
  • 定性分析:- STAR天生的空间细节最为逼真,同时有用抑制了退化伪影- 在文本、人手、动物毛发等精细结构重建方面体现突出- 这些上风得益于T2V模型的时空先验知识和DF丧失的保真度增强机制
  • 时间一致性:- 相比依赖光流估计的传统方法(如StableSR和RealBasicVSR),STAR通过T2V模型的时间先验实现了更优的时间一致性- 无需显式光流盘算即可保持视频序列的连贯性
论文:
https://avoid.overfit.cn/post/3e63ac5ec2844de6bd4d0675d13f7752
作者:Andrew Lukyanenko

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万万哇

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表