视频领域,尤其是文本到视频(T2V)扩散模型中的动作定制,尚未得到充分研究。来自马里兰大学、Adobe Research 和延世大学的研究团队提出了一种名为“Customize-A-Video”的新方法,本方法通过单一参考视频对动作举行建模,并将其顺应到具有空间和时间变革的新主体和场景中。本方法使用时间注意力层上的低秩顺应(LoRA)技能,定制预训练的T2V扩散模型,以实现特定动作的建模。为了在训练过程中分离空间和时间信息,本方法还引入了一种新奇的“表面吸收器”概念,该概念在运动学习之前将原始表面从单一参考视频中分离出来。接纳本方法可以轻松扩展到各种下游任务,包罗自定义视频生成和编辑、视频表面定制以及多种动作组合,以即插即用的方式。