ToB企服应用市场:ToB评测及商务社交产业平台
标题:
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画
[打印本页]
作者:
飞不高
时间:
2024-8-17 23:42
标题:
AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画
论文: 《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》
github: https://github.com/guoyww/animatediff/
1. 择要
随着文生图模型Stable Diffusion及个性化finetune方法:DreamBooth、LoRA发展,人们可以用较低本钱生成本身所需的高质量图像,这导致对于图像动画的需求越来越多。本文作者提出一种框架,可将现有个性化文生图模型所生成图片运动起来。该方法内核为在模型中插入一个运动建模模块,练习后用于蒸馏合理的运动先验。一旦练习完成,全部基于同一个文生图模型的个性化版本都可变为文本驱动模型。作者在动画、真实图上验证,AnimateDiff生成视频比力平滑,同时保留域特性及输出多样性。
2. 引言
作者提出的AnimateDiff,可对于任意个性化文生图模型生成动图,
网络每个个性化域对应视频进行finetune是不方便的
,因此作者设计运动建模模块,在大规模视频上进行finetune,学习到运动先验。
3. 算法
AnimateDiff结构如图2所示,
3.1 Preliminaries
作者利用通用文生图模型SD,对于个性化图像生成领域,如果采集目标域数据进行finetune模型,本钱大,
DreamBooth通过设置有数字符串作为目标域标志
,同时增加原始模型生成图像进行练习,减少信息丢失;
LoRA练习模型参数差值∆W,为降低计算量,作者将∆W解耦为两个低秩矩阵,只有transformer block中映射矩阵参与finetune
。
3.2. Personalized Animation
Personalized Animation定义为:给出个性化文生图模型,比如DreamBooth或LoRA,通过少量练习本钱或不练习即可驱动生成器,保留原始域信息及质量。
为达到上述目的,常规方案是扩展模型增加关注时间的结构,通过大量视频数据学习合理运动先验,
但是个性化视频网络本钱大,有限视频将导致源域信息丢失。
对此,
作者选择练习泛化性运动建模模块,推理时将其插入文生图模型
,作者实验验证发现,该模块可用于任何基于同一基础模型的文生图模型,因为险些未改变基础模型特性空间,ControlNet也曾证明过。
3.3 Motion Modeling Module
网络扩展:
原始SD仅能用于处置惩罚图像数据,若要处置惩罚5D视频张量(batch × \times ×channels × \times ×frames × \times ×height × \times ×width),则需要扩展网络,
作者将原模型中每个2D卷积及attention层转换到仅关注空间的伪3D层,将frame维度合并到batch维度
。新引入的运动模块可在每个batch中跨帧执行,使得生成视频跨帧平滑,内容一致,细节如图3所示。
运动建模模块设计:
该模块重要用于高效交换跨帧信息,作者发现
普通的时空transformer足够建模运动先验。其由几个self-attention在时空维执行,特行图z的空间维度height、width reshape到batch维度
,得到长度frames的 b a t c h ∗ h e i g h t ∗ w i d t h batch*height*width batch∗height∗width的序列,该映射特性经过几个self-attention block,如式4,
使得该模块可以捕捉帧序列同一位置之间时空依赖性;为扩大感受野,作者在U型扩散网路每个分辨率层级引入该模块;此外,
self-attention中增加正弦位置编码,使得网络关注当前帧时空位置
。
练习目标函数:
练习过程:采样视频数据,通过预练习编码器,编码到隐空间,经过运动模块扩展的扩散网络,将噪声隐向量及对应文本prompt作为输入,猜测增加到隐向量上的噪声,如式5,
4. 实验
如图4,作者展示不同模型结果;
图5,作者比力AnimateDiff与Text2Video-Zero,帧与帧之间内容一致性,Text2Video-Zero内容缺少细粒度一致性。
溶解实验:
表2作者比力3种不同扩散机制,可视化结果如图6,Schedule B达到两者均衡。
5.限制
作者发现个性化文生图模型数据域为非传神图片,更容易生成失败,如图7,有显着伪影,不能生成合理运动,
归因于练习视频与个性化模型之间存在较大分布差异。可通过网络目标域视频finetune解决。
6. 结论
作者提出AnimateDiff,可将大多数个性化文生图模型进行视频生成,基于简朴设计的运动建模模块,在大量视频数据学习运动先验,插入个性化文生图模型用于生成自然合理的目标域动图。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4