视频领域,尤其是文本到视频(T2V)扩散模型中的动作定制,尚未得到充分研究。来自马里兰大学、Adobe Research 和延世大学的研究团队提出了一种名为“Customize-A-Video”的新方法,本方法通过单一参考视频对动作举行建模,并将其顺应到具有空间和时间变革的新主体和场景中。本方法使用时间注意力层上的低秩顺应(LoRA)技能,定制预训练的T2V扩散模型,以实现特定动作的建模。为了在训练过程中分离空间和时间信息,本方法还引入了一种新奇的“表面吸收器”概念,该概念在运动学习之前将原始表面从单一参考视频中分离出来。接纳本方法可以轻松扩展到各种下游任务,包罗自定义视频生成和编辑、视频表面定制以及多种动作组合,以即插即用的方式。
“Customize-A-Video”方法的概念和结果示例 Figure 1展示了"Customize-A-Video"方法的核心功能,即接受单个参考视频作为输入,并将其中的动作转移到新生成的视频上,同时保持公道的变革性。
- 单一参考视频的动作转移:该方法可以从一个参考视频中提取动作,并将其应用到新的视频中。例如,将一位密斯的旋转舞蹈动作转移到Ironman(钢铁侠)角色上。这种方法不但能够实现精确的动作复制,还能够生成具有随机变革的两个不同的输出变体。
- 多主体动作转移:除了单一主体,该方法还能够将动作应用到多个主体上。这意味着可以对多个角色或对象举举措作定制,使它们同时实行相同的动作,增长了视频的复杂性和动态性。
- 多动作定制组合:图1还展示了如何将多个动作定制结合起来。例如,除了旋转舞蹈动作外,还可以加入航拍镜头的飞举措作,创造出更为丰富和复杂的视频场景。
- 动作与表面定制的结合:图1展示了如何将提出的动作定制方法与现有的图像定制方法结合起来,以支持表面和动作的双重定制。这允许用户不但定制视频中的动作,还可以定制视频中角色或对象的表面,实现高度个性化的视频内容创作。
方法
论文首先介绍了文本到视频(T2V)扩散模型的预备知识。这些模型接纳一个3D UNet网络,通过逐步去噪的方式生成视频。3D UNet由多种组件构成,包罗空间自注意力和交叉注意力机制、2D和3D卷积层,以实时间交叉帧注意力。在训练过程中,模型接收一个视频的多帧作为输入,并在每个去噪步骤中尝试减少输出与目标帧之间的差别。论文还提到了低秩顺应(LoRA)技能,这是一种对预训练模型举行微调的方法,通过在注意力层添加低秩矩阵来调整原有权重,从而顺应新任务。
自定义视频方法的核心是时间低秩顺应(Temporal LoRA,简称T-LoRA),这是一种专门计划用于捕捉视频动作特征并实现动作定制的技能。T-LoRA的灵感泉源于传统的低秩顺应方法,但其专注于时间维度,以顺应视频内容的特殊需求。
T-LoRA通过在T2V模型的时间交叉帧注意力层上应用LoRA技能,来加强模型对视频中动作变革的捕捉本领。这种方法的目标是在保存原始视频表面的同时,实现对动作的精确控制和定制。通过这种方式,T-LoRA能够学习到参考视频中的动作特征,并将这些动作特征转移到新的视频中,即使是在不同的场景和不同的主体上。
在T-LoRA的应用过程中,模型首先通太过析参考视频来提取动作信息。然后,这些信息被用来调整预训练的T2V扩散模型,使其能够生成具有相似动作特征的新视频。这种方法的一个关键上风是它能够处置惩罚单次参考视频的定制任务,而无需大量的训练数据或复杂的训练过程。
T-LoRA的计划允许它与现有的文本到视频生成模型无缝集成,从而为视频生成提供了更高的灵活性和定制本领。通过T-LoRA,研究者和开发者可以更容易地创建动态和引人入胜的视频内容,这些内容不但能够准确地反映文本提示中描述的动作,还能够在不同的视觉环境中自然地显现这些动作。
论文提出了一种创新的概念,即表面吸收器(Appearance Absorbers),旨在进一步加强视频动作定制的准确性和多样性。表面吸收器的核心作用是从参考视频中分离出空间信息,确保时间LoRA(T-LoRA)能够专注于学习动作特征,而不受空间特征的干扰。
表面吸收器由一系列图像定制模块组成,这些模块特别计划用于吸收视频中的空间信号,包罗身份、纹理、场景等元素。通过这种方式,当举举措作定制时,模型可以更准确地捕捉到动作的动态变革,而不是简单地复制视频中的静态表面。
表面吸收器包罗两种类型的方法:空间LoRA(S-LoRA)和文本反转(Textual Inversion)。空间LoRA通过仅在T2V模型的空间注意力层上应用LoRA,来吸收无序视频帧中的空间信息。这种方法允许模型专注于学习视频中的空间结构和表面特征,而不是动作本身。
另一方面,文本反转使用可学习的占位符标志,这些标志通过预训练的文天职词器初始化,并吸收与视频表面相关的空间信息。这种方法通过将文本描述与视频帧相结合,提高了模型对视频中特定表面特征的吸收本领。
在训练过程中,表面吸收器首先被训练以吸收参考视频中的空间信息。随后,在第二阶段的训练中,这些吸收器与T-LoRA一起被集成到T2V模型中。此时,表面吸收器的参数被冻结,以确保它们不会在学习动作特征的过程中改变。如许,T-LoRA就可以在没有空间信息干扰的环境下,专注于从视频中学习动作特征。
通过使用表面吸收器,本方法能够生成在新场景和新主体中准确且多样化的动作。这不但提高了动作定制的灵活性,也使得生成的视频更加自然和吸引人。表面吸收器的引入,为视频定制领域带来了一种新的思考方式,为实现更高级的视频编辑和生成任务提供了大概。
自定义视频方法中,训练和推理流程是实现动作定制的关键步骤。这一流程分为两个主要阶段:表面吸收器的训练和T-LoRA的训练,末了是推理阶段,用于生成具有新文本提示的输出视频。
LoRA(T-LoRA)和训练推理流程的表示图
阐明白如何将时间LoRA应用于基础T2V扩散模型,并介绍了三阶段训练和推理流程 在表面吸收器的训练阶段,这些模块被专门计划来忽略T2V模型中的时间层,包罗时间注意力层和3D卷积层。如许做的目标是让表面吸收器集中于学习视频中的空间信息,如主体的表面和背景场景。训练使用的视频帧是无序的,并且使用与地面真实描述相匹配的丧失函数来指导学习过程。
在第二阶段,表面吸收器被集成到T2V模型中,但其参数保持冻结状态。此时,T-LoRA被引入到模型的时间注意力层,并且使用参考视频和包罗动作和表面描述的完备真实字幕举行训练。这个阶段的目标是让T-LoRA学习如何将参考视频中的动作转移到新的视频中,同时确保表面吸收器能够生成空间上定制的内容。
在推理阶段,只有训练好的T-LoRA被加载到基础T2V模型上。此时,给定一个新的文本提示,模型会根据这个提示生成一个新的视频,其中的动作是根据参考视频定制的,同时表面则是根据文本提示定制的。这种方法允许模型在保持动作的准确性和多样性的同时,创造出具有新奇表面的视频。
整个训练和推理流程的计划允许模型在不同的视频生成任务中灵活应用,包罗精确的视频编辑、视频表面定制和多种动作组合。通过这种方式,研究者能够使用预训练的T2V模型,通过一次性的训练过程,实现对视频内容的定制化控制,大大扩展了视频生成和编辑的大概性。
实验
作者使用的基础文本到视频(T2V)扩散模型是通用的,可以应用于各种视频生成任务。在这项工作中,他们选择了ModelScope T2V模型作为预训练模型,这个模型在实验中被用来生成视频。为了保持同等性并便于比较,所有视频在预处置惩罚和生成时都被设置为2秒长,以8帧/秒的帧率,以及256×256的分辨率。
数据集的选择上由于缺乏专门为单视频动作定制任务计划的数据集,他们从不同的泉源搜集了视频,包罗LOVEU-TGVE2023、WebVid-10M和DAVIS等数据集。这些数据集提供了多样化的视频内容,使得作者能够评估他们提出方法的有效性。为了测试模型的泛化本领,作者还包罗了野外视频,即那些在非受控环境中拍摄的视频,这增长了评估的难度,但也能更全面地反映模型在现实世界条件下的表现。
由于没有现成的方法与作者提出的一次性视频动作定制任务完全相同,他们选择了与他们的工作最相关的两个现有方法:Tune-A-Video和Video-P2P。这些方法在单参考视频上举行微调,调整空间和时间注意力,以实现动作的定制。然而,这些方法的一个限制是它们依赖于DDIM(去噪扩散隐式模型)反转的参考视频潜在表示作为输入,这大概会限制生成视频的多样性和灵活性。
定量评估中作者选择了三个指标:文本对齐(Text alignment)、时间同等性(Temporal consistency)和多样性(Diversity)。
- 文本对齐(Text alignment):这个指标使用CLIPScore来权衡生成的视频帧与输入文本提示之间的对齐程度。一个高文本对齐分数表明生成的视频内容与文本描述紧密相关。
- 时间同等性(Temporal consistency):这个指标使用LPIPS(感知丧失)来权衡生成视频连续帧之间的视觉同等性。低LPIPS值表明视频帧之间的过渡平滑,没有突兀的变革。
- 多样性(Diversity):同样使用LPIPS来权衡,但这次是为了评估在相同文本提示下,由不同随机噪声种子生成的多个视频之间的差别。高多样性得分意味着模型能够产生视觉上明显不同的视频,即使它们都是对同一文本提示的响应。
数据集上的定量比较结果
单次拍摄动作定制的定性结果:基础的ModelScope T2V模型固然能够从大规模数据集中学习到一般的动作概念,但无法准确复制由参考视频引导的具体动作。相比之下,Tune-A-Video和Video-P2P使用DDIM反转的潜在表示,导致输出在时间上是确定性的,并且受到参考帧结构的结构限制。而提出的方法能够在新场景和主体中转移参考动作,同时通过随机噪声输入引入时间变革。
作者还举行了一系列溶解研究,以验证他们方法的不同组件的有效性。例如,他们探究了仅在空间注意力层上应用LoRA(S-LoRA)或在空间和时间注意力层上同时应用LoRA(ST-LoRA)的影响。结果表明,与T-LoRA方法相比添加空间定制模块的模型主要基于空间结构影象视频,导致视频表面和动作定制的显著退化。
在基础T2V模型的不同注意力层上应用LoRA的结果 应用
使用LoRA技能的即插即用特性,作者提出了几个下游应用案例,这些案例不但证明白模型的多样性,也展示了其在视频生成和编辑方面的实用性。
视频表面定制:在这项应用中,作者展示了如何将时间LoRA(T-LoRA)与图像定制技能结合使用,以同时控制视频的时空层面。通过在T2V模型中注入T-LoRA来呈现参考动作,同时使用图像空间LoRA来反映特定的漫画风格,模型能够产生既具有指定动作又具有新表面风格综合结果的视频。
如何结合运动定制和图像定制方法来操作基础T2V模型的空间和时间层 多动作组合:作者进一步探索了如何将多个T-LoRA模块应用于基础模型,每个模块针对不同的参考视频举行训练,以实现多种动作的融合。例如示例中,他们展示了如何将“后退跌倒”的动作和“推拉变焦”的摄像机运动合并到一个目标场景中,使用两个T-LoRA模块生成具有合并动作的视频。
如何使用多个T-LoRA模块来整合不同参考视频中的各种动作 第三方表面吸收器:作者还讨论了如何使用预训练在野外图像数据上的第三方图像定制模块作为现成的表面吸收器。在不颠末第一阶段训练的环境下,直接使用这些模块来处置惩罚视频,从而节流了训练时间并提高了服从。在一个示例中,作者使用了一个针对特定虚构角色预训练的公共图像LoRA,而不是对参考视频帧举行调整,从而避免了原始表面特征泄露到替换主体上的问题。
如何加载预训练的第三方表面吸收器来避免原始表面的泄露 这些应用案例表明,作者的方法不但可以实现对视频动作的精确定制,还可以与其他图像和视频编辑技能无缝集成,为视频内容创作提供了新的大概性。通过这些实验,作者证明白他们的方法在不同的视频编辑和生成任务中的有效性和灵活性,为未来的研究和实际应用奠基了基础。
论文链接:https://arxiv.org/abs/2402.14780
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |