STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率办理方案,针对现有模型中存在的过度平滑和时间一致性不敷等问题进行了体系性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模本领,有用处理惩罚复杂退化场景下的视觉伪影,同时办理了强天生模型导致的保真度丧失问题。STAR的核心创新在于引入局部信息增强模块(LIEM)用于增强空间细节重建本领,并设计了动态频率(DF)丧失函数,通过在扩散过程中对频率分量进行自适应调节来提升重建质量。实行表明,该方法在合成数据集和真实场景数据集上均优于现有开始辈的方法。