(Arxiv-2025)MagicDistillation：用于大规模人像少步合成的弱到强视频蒸馏 ...

惊雷无声 · 2025-3-27 20:36:38

MagicDistillation：用于大规模人像少步合成的弱到强视频蒸馏

paper是HKUST发布在Arxiv 2025的工作
paper title：MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis
Project page：地点
Abstract

对开源大规模视频扩散模子（VDMs）进行微调以适应肖像视频合成任务，在多个维度上都能显著提拔，例如视觉质量和面部活动的天然动态。只管这些方法已取得希望，但怎样实现渐渐蒸馏（step distillation）并减少大规模VDMs所带来的大量计算开销仍未被深入探索。
为填补这一空白，本文提出了弱到强的视频蒸馏方法（Weak-to-Strong Video Distillation，W2SVD），以缓解训练过程中的显存不足问题和在原始DMD中观察到的训练崩溃问题。具体来说，我们起首使用LoRA微调一个伪扩散变换器（fake diffusion transformer，DiT），以应对显存不足问题。然后，我们使用W2S分布匹配（W2S distribution matching）来调整真实DiT的参数，使其微妙地向fake DiT的参数靠近。
该调整通过低秩分支的弱权重来实现，有效缓解了few-step生成器合成的视频偏离真实数据分布、从而导致KL散度近似不正确的问题。此外，我们最小化fake数据分布与真实数据分布之间的距离，以进一步提拔合成视频的视觉质量。实验结果表明，在HunyuanVideo数据集上，我们得到了MagicDistill，其在1/4步的视频合成中在FID/FVD和VBench指标上均优于尺度Euler、LCM、DMD，乃至优于28步的尺度采样方法。

图1.对于900次迭代的4步模子，vanilla DMD会出现训练崩溃，导致生成不可控的视频。相比之下，W2SVD在人像图像动画中体现出了鲁棒性，克制了此类问题。

图2.                                        W                         2                         S                         V                         D                               W2SVD                   W2SVD 的概览。
                                       W                         2                         S                         V                         D                               W2SVD                   W2SVD 的核心创新在于引入 LoRA 以实现从弱到强的分布匹配，从而更稳定地估计                                                 D                                        K                               L                                                          (                                        p                               fake                                        ∥                                        p                               real                                        )                                           \mathcal{D}_{\mathrm{KL}}\left(p_{\text{fake}} \| p_{\text{real}}\right)                   DKL(pfake∥preal)。
此外，它还结合了                                                 D                                        K                               L                                                          (                                        p                               fake                                        ∥                                        p                                              g                                  t                                                    )                                           \mathcal{D}_{\mathrm{KL}}\left(p_{\text{fake}} \| p_{\mathrm{gt}}\right)                   DKL(pfake∥pgt)，以进一步提拔合成视频的视觉质量。
  1. Introduction

随着基础模子（Stability.ai, 2024；Rombach 等, 2022；Touvron 等, 2023）在生成式智能时代的出现，充分开释视频扩散模子（Video Diffusion Models，VDMs）（Guo 等, 2023；Team, 2024）的潜力，并将其应用于肖像视频合成（Zakharov 等, 2020；Cui 等, 2024b），已成为学术研究的热点方向。
VDMs的快速希望以及支持基础办法的发展显著提拔了语言人视频合成的能力，一系列杰出项目如 EMO（Sun 等, 2023）和 Hallo-2（Cui 等, 2024a）就是明证。与传统用于视频合成的U-Net架构（Ronneberger 等, 2015）相比，扩散变换器（Diffusion Transformers，DiTs）（Peebles & Xie, 2023）展现出杰出的可扩展性，在以人为中心的视频合成任务中实现了更优的时间一致性、逼真的面部活动动态以及更高的视觉质量（Yang 等, 2024a；Jafari 等, 2024；Ki 等, 2024）。值得注意的是，DiTs的进一步扩展很大概带来更大的性能提拔。
最近发布的开源模子 HunyuanVideo（Kong 等, 2024），拥有高出130亿（13b+）参数，为通过微调合成富有体现力的语言人视频提供了有前景的途径。
然而，13b+ 的 HunyuanVideo 所面对的主要挑衅是其显著的推理开销。例如，使用图像到视频（Image-to-Video，I2V）合成生成一个尺度的 129 帧视频（约 5 秒），在单个 NVIDIA H100 GPU 上大约需要 10 分钟的时间。如此高的 GPU 延迟险些使得大规模模子的实际摆设变得不可行。
为相识决这一问题，一种被验证有效的方案是使用基于蒸馏（distillation-based）的加速采样方法（Zhai 等, 2024；Li 等, 2024a），该方法通过显著减少函数评估次数（Number of Function Evaluations，NFEs）来大幅进步视频合成的服从。
现在大多数 VDMs 中的步调蒸馏方法都是基于潜变量一致性模子（Latent Consistency Model，LCM）范式（Song 等, 2023）构建的。然而，LCM 框架需要引入指数移动平均（Exponential Moving Average，EMA）机制，这就导致训练过程中需要加载三个模子的参数。
不幸的是，经过我们的探索性研究，即便使用配备 80GB 显存的 16 张 GPU 和 ZeRO-3 CPU offload 技术（Rajbhandari 等, 2021），依然无法解决显存溢出（Out-of-Memory，OOM）的问题。
因此，我们将注意力转向一种不依赖于 EMA 的步调蒸馏方法——分布匹配蒸馏（Distribution Matching Distillation，DMD）（Yin 等, 2024b；2024a）。该方法有望实现少步数的 HunyuanVideo 模子，在理论上同时具备高效性与有效性。
具体而言，DMD 的目的是使用两个参数不重叠的模子来分别估计真实数据分布和伪造数据分布。
然后，使用得分蒸馏采样（Score Distillation Sampling，SDS）算法（Poole 等, 2023）结合两个分布的信息来更新生成器的参数。
显然，原始 DMD 的训练过程同样需要三个模子，这将导致与 LCM 雷同的显存溢出（OOM）问题。
为相识决该问题，同时不影响生成器的最终性能，我们提出在真实模子（用于估计真实数据分布）上添加低秩适配（Low-Rank Adaptation，LoRA）模块，从而实现伪造模子（用于估计伪造数据分布），确保训练过程的高效性并克制 OOM 问题。
不幸的是，我们观察到使用 LoRA 实现原始 DMD 会带来两个主要问题：
1）训练过程不稳定，极易过拟合，导致合成视频输出不可控；
2）视觉质量不足，这在 VBench（Huang 等, 2024a；2024b）、FID（Heusel 等, 2017）和 FVD（Unterthiner 等, 2019）等指标中体现明显（详见第4节）。
我们推测这些问题的根本原因在于，随着训练的进行，真实模子逐渐无法充分适配由生成器合成的输入，导致 KL 散度近似不正确。
为相识决这一问题，如图2所示，我们提出了弱到强视频蒸馏（Weak-to-Strong Video Distillation，W2SVD）方法，该方法通过微妙地将真实模子的参数向伪造模子的参数调整，从而提拔真实模子对少步数生成器输出的适应能力，进而改善训练的稳定性。
我们还引入了伪数据分布与真实数据分布之间的 KL 散度近似（即图2中的                                           D                                     K                            L                                                    (                                     p                            fake                                     ∥                                     p                                        g                               t                                              )                                     \mathcal{D}_{\mathrm{KL}}\left(p_{\text{fake}} \| p_{\mathrm{gt}}\right)                DKL(pfake∥pgt)，此中                                           D                                     K                            L                                              \mathcal{D}_{\mathrm{KL}}                DKL 表示 KL 散度），以进一步提拔合成视频的主体泛化能力和视觉保真度。
这是一个可选的正则项，我们的实验表明它能够有效地在视觉质量和动作动态之间实现平衡。
对于一步模子，以前的 DMD 框架（Yin 等, 2024c；2024a）依赖合成的噪声-数据对，并通过蒸馏范式（Liu 等, 2022）促进 DMD 的收敛。
然而，在 HunyuanVideo 上收集尺度 28 步采样的输入输出是一项非常耗时的任务。
思量到这一点，我们使用由                                  W                      2                      S                      V                      D                            W2SVD                W2SVD 产生的 4 步模子直接合成噪声-数据对，并将这一轻量化过程无缝集成到                                  W                      2                      S                      V                      D                            W2SVD                W2SVD 的训练阶段中。
我们在基准数据集以及自建的宽屏视频数据集上验证了我们提出的方法。
对于前者，我们在如 VFHQ（Xie et al, 2022）、HTDF（Zhang et al, 2021）和 Celeb-V（Zhu et al, 2022）等基准数据集上，采用 FID 和 FVD 指标进行评估，结果表明 W2SVD 在性能上相较于原始 DMD/DMD2 和 LCM 有显著提拔。特别是，我们的 4 步模子在大多数基准上乃至逾越了尺度的 28 步西席模子。
对于后者，我们使用 InternVL2-26B（Chen et al, 2024）为参考图像生成文本形貌，从而构建了面向人像视频合成的 VBench。实验结果显示，我们的 4 步模子在 7 项指标中的 6 项上优于其他方法，逾越了原始 DMD2 所能到达的最佳性能。同时，在绝大多数指标上也优于尺度的 28 步预训练模子。
2. Related Work

在本节中，我们简要回顾调度器、HunyuanVideo 大模子的架构、步蒸馏算法以及人像视频合成。
HunyuanVideo。HunyuanVideo（Kong et al., 2024）被广泛以为是当前开始进、最有效的开源视频扩散模子（VDM）。其调度器采用 flow-matching 范式（Lipman et al., 2022），用于建模正向与反向过程。
具体而言，flow matching 在噪声分布                                           p                         1                                           (                                     x                            1                                     )                                     p_1\left(\mathbf{x}_1\right)                p1(x1) 中的高斯噪声                                           x                         1                                     \mathbf{x}_1                x1 与真实数据分布                                           p                         0                                           (                                     x                            0                                     )                                     p_0\left(\mathbf{x}_0\right)                p0(x0) 中的样本                                           x                         0                                     \mathbf{x}_0                x0 之间定义一个由常微分方程（ODE）形貌的映射关系：
                                       d                                     x                            t                                     =                                     v                            Θ                                              (                                        x                               t                                        ,                            t                            )                                     d                         t                               d \mathbf{x}_t = \mathbf{v}_{\Theta}\left(\mathbf{x}_t, t\right) d t                   dxt=vΘ(xt,t)dt
此中                                           x                         t                                     \mathbf{x}_t                xt 表示流上的第                                  t                            t                t 步样本，                                           v                         Θ                               (                      ⋅                      ,                      ⋅                      )                            \mathbf{v}_{\Theta}(\cdot, \cdot)                vΘ(⋅,⋅) 为速率估计模子。
Flow matching 通过求解一个简单的最小二乘正则化问题来优化                                           v                         Θ                               (                      ⋅                      ,                      ⋅                      )                            \mathbf{v}_{\Theta}(\cdot, \cdot)                vΘ(⋅,⋅)：
                                                                           arg                                  ⁡                                  min                                  ⁡                                           Θ                                                          ∫                            0                            1                                     E                                     [                                        α                               t                                                                ∥                                  ∂                                                 p                                     t                                                             (                                                    x                                        t                                                    )                                                 /                                  ∂                                  t                                  −                                                 v                                     Θ                                                             (                                                    x                                        t                                                    ,                                     t                                     )                                                 ∥                                           2                               2                                        ]                                     d                         t                                  (                         1                         )                               \underset{\Theta}{\arg \min } \int_0^1 \mathbb{E}\left[\alpha_t\left\|\partial p_t\left(\mathbf{x}_t\right) / \partial t-\mathbf{v}_{\Theta}\left(\mathbf{x}_t, t\right)\right\|_2^2\right] d t \quad(1)                   Θargmin∫01E[αt∥∂pt(xt)/∂t−vΘ(xt,t)∥22]dt(1)
此中                                           α                         t                                     \alpha_t                αt 是权重因子，默认采用 logitnormal 分布（Karras et al., 2022）。
训练完成后，采样过程直接使用 Euler 算法进行。
在模子架构方面，HunyuanVideo 基于 DiT 框架构建，但在模子前                                  1                      /                      3                            1/3                1/3 部分引入了 double-stream 块，用于融合参考文本/图像与带噪视频。在模子后                                  2                      /                      3                            2/3                2/3 部分，采用 single-stream 块以实现更精细的视频建模。
值得注意的是，HunyuanVideo 的 VAE 是从零开始训练的，其下采样比例为从                                  T                      ×                      H                      ×                      W                            T \times H \times W                T×H×W 到                                           ⌊                                     T                            4                                     ⌋                               ×                                  ⌊                                     H                            8                                     ⌋                               ×                                  ⌊                                     W                            8                                     ⌋                                     \left\lfloor\frac{T}{4}\right\rfloor \times\left\lfloor\frac{H}{8}\right\rfloor \times\left\lfloor\frac{W}{8}\right\rfloor                ⌊4T⌋×⌊8H⌋×⌊8W⌋，此中                                  T                      ,                      H                      ,                      W                            T, H, W                T,H,W 分别表示视频的时间长度、高度和宽度。
步蒸馏。步蒸馏通过在扩散模子推理过程中减少函数评估次数（NFEs），实现加速采样。现在，该范畴主要存在两种主流范式：“少步对齐多步”和“分布匹配”。
此中，LCM 是对齐少步模子与多步过程的主要框架。大多数开源的少步视频扩散模子（VDM）都是基于 LCM 训练构建的，包括 MCM（Zhai et al, 2024）、T2V-turbo 系列（Li et al, 2024b）和 FastVideo（HaoAI-Lab, 2025）。
“分布匹配”这一范式在图像生成中已展现出优于 LCM 的性能，这一点已被 DMD（Yin et al, 2024b）、DMD2（Yin et al, 2024a）和 SiD-LSG（Zhou et al, 2024）等方法所验证。然而，该方法在视频生成范畴的应用仍相对较少（Yin et al, 2024c）。
人像视频合成。人像视频合成的核心目的是合成逼真的语言人头部视频，使得合成结果能够与参考图像、音频或文本输入实现无缝对齐。以往的算法主要依赖以 UNet 为主干的扩散模子进行人像视频合成。固然这些方法取得了具有竞争力的性能，例如 EMO（Sun et al, 2023）、Sadtalker（Zhang et al, 2023）和 Hallo（Cui et al, 2024a），但它们在扩展到更长视频时以及维持高视频保真度方面面对显著挑衅。
这些问题本质上源于 UNet 架构缺乏可扩展性，以及训练过程中使用的视频长度不足。一些近期开源的基于 DiT 的视频扩散模子（Yang et al, 2024b；Polyak et al, 2024）由于具备生成高保真度和语义一致性视频的能力，受到了广泛关注。这促使我们对当前开始进的开源视频扩散模子 HunyuanVideo 进行微调，构建了两个基线模子：一个用于人像图像到视频（I2V）合成，另一个用于人像文本与图像到视频（TI2V）合成。由于本工作的主要关注点是加速采样，因此我们当前阶段并未思量音频输入。
3. Method

如图 3 所示，我们提出了用于大规模人像视频合成加速采样的 W2SVD。W2SVD 融合了弱到强（W2S）的分布匹配机制以及真实数据的监视信号。该技术旨在防止在少步视频合成场景中生成不可控的视频，同时提拔合成视频的视觉质量。
此外，我们还专门为 HunyuanVideo 设计了一个定制的判别器，并提出了一种更高效的算法，用于对 1 步生成器进行蒸馏。

图 3. W 2 S V D W 2 S V D W2SVD 表示图。图中的术语 “Reg.”、“Dis.” 和 “Gen.” 分别表示 “Regularization（正则化）”、“Discriminator（判别器）” 和 “Generator（生成器）”。W2SVD 主要通过引入 LoRA 来促进大规模 VDM 的训练。权重因子 α strong \alpha_{\text {strong }} αstrong 和 α weak \alpha_{\text {weak }} αweak 被用于实现弱到强的分布匹配。此外，包含真实视频的正则化损失有助于缓解 DMD 损失中出现的过拟合问题。这些策略共同确保了 W 2 S V D W 2 S V D W2SVD 训练过程的稳定性，并提拔了最终少步模子的生成质量。
3.1. Preliminary

在本节中，我们简要介绍了分布匹配蒸馏（Distribution Matching Distillation，DMD）方法。设                                           G                         ϕ                                     G_\phi                Gϕ 表示由参数                                  ϕ                            \phi                ϕ 控制的少步生成器，两个辅助模子                                           v                         θ                         fake                                       \mathbf{v}_\theta^{\text {fake }}                vθfake 和                                           v                         Θ                         real                                       \mathbf{v}_{\Theta}^{\text {real }}                vΘreal 初始化自预训练扩散模子。DMD 的核心头脑是最小化在随机采样时间步                                  t                            t                t 上，来自真实模子                                           v                         Θ                         real                                       \mathbf{v}_{\Theta}^{\text {real }}                vΘreal 得到的真实数据分布                                           p                         real                                       p_{\text {real }}                preal 与来自伪模子                                           v                         θ                         fake                                       \mathbf{v}_\theta^{\text {fake }}                vθfake 得到的伪数据分布                                           p                         fake                                       p_{\text {fake }}                pfake 之间的反向 KL 散度：
                                                                                                                                                                           ∇                                        ϕ                                                                   L                                                          D                                           M                                           D                                                                   ≜                                                    E                                        t                                                                   ∇                                        ϕ                                                                   D                                                          K                                           L                                                                                  (                                                          p                                           fake                                                         ∥                                                          p                                           real                                                         )                                                    ≈                                     −                                                    E                                        t                                                                   ∫                                        ϵ                                                                   (                                                          [                                                             x                                              t                                                                                                                                                                                                                                                                         −                                                             σ                                              t                                                                            v                                              Θ                                              real                                                                              (                                                                x                                                 t                                                                ,                                              t                                              )                                                             −                                                             x                                              t                                                             +                                                             σ                                              t                                                                            v                                              θ                                              fake                                                                              (                                                                x                                                 t                                                                ,                                              t                                              )                                                             ]                                                                                        ∂                                                                G                                                 ϕ                                                                (                                              ϵ                                              )                                                                            ∂                                              ϕ                                                                         d                                        ϵ                                        )                                                    ,                                                    (                                     2                                     )                                                                               \begin{aligned} & \nabla_\phi \mathcal{L}_{\mathrm{DMD}} \triangleq \mathbb{E}_t \nabla_\phi \mathcal{D}_{\mathrm{KL}}\left(p_{\text {fake }} \| p_{\text {real }}\right) \approx-\mathbb{E}_t \int_\epsilon\left(\left[\mathbf{x}_t\right.\right. \\ & \left.\left.-\sigma_t \mathbf{v}_{\Theta}^{\text {real }}\left(\mathbf{x}_t, t\right)-\mathbf{x}_t+\sigma_t \mathbf{v}_\theta^{\text {fake }}\left(\mathbf{x}_t, t\right)\right] \frac{\partial G_\phi(\epsilon)}{\partial \phi} d \epsilon\right),\quad(2) \end{aligned}                   ∇ϕLDMD≜Et∇ϕDKL(pfake ∥preal )≈−Et∫ϵ([xt−σtvΘreal (xt,t)−xt+σtvθfake (xt,t)]∂ϕ∂Gϕ(ϵ)dϵ),(2)
此中                                           x                         t                               =                                  (                         1                         −                                     σ                            t                                     )                                           G                         ϕ                               (                      ϵ                      )                      +                                  σ                         t                               ϵ                            \mathbf{x}_t=\left(1-\sigma_t\right) G_\phi(\epsilon)+\sigma_t \epsilon                xt=(1−σt)Gϕ(ϵ)+σtϵ。这里的                                  ϵ                            \epsilon                ϵ 和                                           σ                         t                                     \sigma_t                σt 分别表示高斯噪声和噪声调度项。注意该形式是将 DMD 从 DDPM（Ho et al., 2020）形式转换为 Flow Matching 形式的结果。
在训练过程中，为了动态地使                                           p                         fake                                       p_{\text {fake }}                pfake 与                                           G                         ϕ                                     G_\phi                Gϕ 的输出分布及时对齐，我们最小化以下损失函数：
                                                                                       L                                     diffusion                                                                                                                        =                                                    E                                                          t                                           ∼                                           U                                           [                                           0                                           ,                                           1                                           ]                                           ,                                                             ϵ                                              ′                                                             ∼                                           N                                           (                                           0                                           ,                                           I                                           )                                                                                  [                                                          α                                           t                                                       ∥                                                          ϵ                                           ′                                                       −                                                          G                                           ϕ                                                       (                                        ϵ                                        )                                                                                                                                                                                                                         −                                                          v                                           θ                                           fake                                                                           (                                                             σ                                              t                                                                            ϵ                                              ′                                                             +                                                             (                                              1                                              −                                                                σ                                                 t                                                                )                                                                            G                                              ϕ                                                             (                                           ϵ                                           )                                           ,                                           t                                           )                                                                         ∥                                           2                                           2                                                       ]                                                    ,                                                    (                                     3                                     )                                                                               \begin{aligned} \mathcal{L}_{\text {diffusion }} & =\mathbb{E}_{t \sim \mathcal{U}[0,1], \epsilon^{\prime} \sim \mathcal{N}(0, \mathbf{I})}\left[\alpha_t \| \epsilon^{\prime}-G_\phi(\epsilon)\right. \\ & \left.-\mathbf{v}_\theta^{\text {fake }}\left(\sigma_t \epsilon^{\prime}+\left(1-\sigma_t\right) G_\phi(\epsilon), t\right) \|_2^2\right],\quad(3) \end{aligned}                   Ldiffusion =Et∼U[0,1],ϵ′∼N(0,I)[αt∥ϵ′−Gϕ(ϵ)−vθfake (σtϵ′+(1−σt)Gϕ(ϵ),t)∥22],(3)
此中                                           ϵ                         ′                                     \epsilon^{\prime}                ϵ′ 和                                  ϵ                            \epsilon                ϵ 为相互独立的高斯噪声。通过交替优化公式 (2) 和公式 (3)，我们可以得到一个能够生成高质量视频的少步生成器。
此外，DMD2 相比 DMD 的关键改进在于引入了判别器                                           D                         ξ                                     D_{\xi}                Dξ，用于进一步加强视频质量。该范式采用交替优化策略，在 DMD 训练阶段对                                           D                         ξ                                     D_{\xi}                Dξ 和                                           G                         ϕ                                     G_\phi                Gϕ 进行迭代优化，损失函数定义如下：
                                                                                                                                                                                                L                                           dis                                                         =                                                          E                                                             ϵ                                              ,                                                                x                                                                      g                                                    t                                                                                                          max                                        ⁡                                                          (                                           0                                           ,                                           1                                           +                                                             D                                              ξ                                                                            (                                                                G                                                 ϕ                                                                (                                              ϵ                                              )                                              )                                                             )                                                       +                                                                                                                                                                                                             max                                        ⁡                                                          (                                           0                                           ,                                           1                                           −                                                             D                                              ξ                                                                            (                                                                x                                                                      g                                                    t                                                                                  )                                                             )                                                       ,                                                                      L                                                             g                                              e                                              n                                                                         =                                        −                                                          E                                           ϵ                                                                         D                                           ξ                                                                         (                                                             G                                              ϕ                                                             (                                           ϵ                                           )                                           )                                                                                                             (                         4                         )                               \begin{aligned} & \mathcal{L}_{\text {dis }}=\mathbb{E}_{\epsilon, \mathbf{x}^{\mathrm{gt}}} \max \left(0,1+D_{\xi}\left(G_\phi(\epsilon)\right)\right)+ \\ & \max \left(0,1-D_{\xi}\left(\mathbf{x}^{\mathrm{gt}}\right)\right), \quad \mathcal{L}_{\mathrm{gen}}=-\mathbb{E}_\epsilon D_{\xi}\left(G_\phi(\epsilon)\right) \end{aligned}\quad(4)                   Ldis =Eϵ,xgtmax(0,1+Dξ(Gϕ(ϵ)))+max(0,1−Dξ(xgt)),Lgen=−EϵDξ(Gϕ(ϵ))(4)
此中                                           x                                     g                            t                                              \mathbf{x}^{\mathrm{gt}}                xgt 表示真实视频，                                           L                         dis                                       \mathcal{L}_{\text {dis }}                Ldis 和                                           L                         gen                                       \mathcal{L}_{\text {gen }}                Lgen 分别用于更新判别器                                           D                         ξ                                     D_{\xi}                Dξ 和少步生成器                                           G                         ϕ                                     G_\phi                Gϕ。
3.2. Weak-to-Strong Distribution Matching

为了引入弱到强（W2S）的分布匹配，我们进一步重写并明白 DMD 的优化问题（即最小化公式 2，满足公式 3）：
                                                                           arg                                  ⁡                                  min                                  ⁡                                           ϕ                                                          E                                        t                               ,                                              (                                  ϵ                                  ,                                                 ϵ                                     ′                                                 )                                           ∼                               N                               (                               0                               ,                               I                               )                                                                      ∥                                              ϵ                                  ′                                           −                                              G                                  ϕ                                           (                               ϵ                               )                               −                                              v                                  Θ                                  real                                                            (                                                 x                                     t                                                 ,                                  t                                  )                                           ∥                                        2                            2                                              (                         5                         )                               \underset{\phi}{\arg \min } \mathbb{E}_{t,\left(\epsilon, \epsilon^{\prime}\right) \sim \mathcal{N}(0, \mathbf{I})}\left\|\epsilon^{\prime}-G_\phi(\epsilon)-\mathbf{v}_{\Theta}^{\text {real }}\left(\mathbf{x}_t, t\right)\right\|_2^2\quad(5)                   ϕargminEt,(ϵ,ϵ′)∼N(0,I)             ϵ′−Gϕ(ϵ)−vΘreal (xt,t)             22(5)
假设                                           Θ                         ∗                               =                      arg                      ⁡                                           min                            ⁡                                     Θ                                           E                                     t                            ,                                        x                                              g                                  t                                                                            [                         ∥                         ϵ                         −                                     x                                        g                               t                                              −                                     v                            Θ                            real                                                (                                        (                               1                               −                                              σ                                  t                                           )                                                    x                                              g                                  t                                                    +                                        σ                               t                                        ϵ                            ,                            t                            )                                     ∥                         ]                                     \Theta^*=\arg \min _{\Theta} \mathbb{E}_{t, \mathbf{x}^{\mathrm{gt}}}\left[\| \epsilon-\mathbf{x}^{\mathrm{gt}}-\mathbf{v}_{\Theta}^{\text {real }}\left(\left(1-\sigma_t\right) \mathbf{x}_{\mathrm{gt}}+\sigma_t \epsilon, t\right) \|\right]                Θ∗=argminΘEt,xgt[∥ϵ−xgt−vΘreal ((1−σt)xgt+σtϵ,t)∥] 是最优的预训练扩散模子。在实际情形中，将                                  Θ                            \Theta                Θ 优化到其最优解                                           Θ                         ∗                                     \Theta^*                Θ∗ 是不可行的。因此，公式 5 只能在理论上使                                           G                         ϕ                               (                      ϵ                      )                            G_\phi(\epsilon)                Gϕ(ϵ) 尽大概接近由                                           v                         Θ                         real                                       \mathbf{v}_{\Theta}^{\text {real }}                vΘreal 估计的数据分布                                           p                         real                                       p_{\text {real }}                preal 。进一步地，我们可以通过最小化公式 3 得到                                           v                         θ                         fake                                             (                                     x                            t                                     ,                         t                         )                               =                                  ϵ                         ′                               −                                  G                         ϕ                               (                      ϵ                      )                            \mathbf{v}_\theta^{\text {fake }}\left(\mathbf{x}_t, t\right)=\epsilon^{\prime}-G_\phi(\epsilon)                vθfake (xt,t)=ϵ′−Gϕ(ϵ)，并通过优化公式 5 得到                                           v                         Θ                         real                                             (                                     x                            t                                     ,                         t                         )                               =                                  ϵ                         ′                               −                                  G                         ϕ                               (                      ϵ                      )                            \mathbf{v}_{\Theta}^{\text {real }}\left(\mathbf{x}_t, t\right)=\epsilon^{\prime}-G_\phi(\epsilon)                vΘreal (xt,t)=ϵ′−Gϕ(ϵ)，从而得出                                  Θ                      ≡                      θ                            \Theta \equiv \theta                Θ≡θ。注意，在 DMD 训练的初始阶段，                                  θ                            \theta                θ 等于                                  Θ                            \Theta                Θ。因此，在优化过程中，                                  θ                            \theta                θ 最初偏离                                  Θ                            \Theta                Θ，随后又逐渐靠近                                  Θ                            \Theta                Θ。上述分析表明，在整个训练过程中，                                  θ                            \theta                θ 和                                  Θ                            \Theta                Θ 之间的距离始终相对较小。这使得使用 LoRA 来优化                                  θ                            \theta                θ 成为一个有吸引力的选择，因为它可以有效降低计算开销。
引入 LoRA 的另一个优势是可以通过调整权重因子实现                                  W                      2                      S                            W 2 S                W2S 分布匹配。如图 4 所示，该方法解决了                                           p                         real                                       p_{\text {real }}                preal 无法覆盖由少步生成器                                           G                         ϕ                                     G_\phi                Gϕ 合成样本的可行地区的问题。具体来说，我们观察到，在人像视频合成任务中，HunyuanVideo 在 DMD 训练期间体现出                                           p                         real                                       p_{\text {real }}                preal 和                                           p                         fake                                       p_{\text {fake }}                pfake 之间的巨大差异，如图 4 左侧所示。这种失配导致了对                                  ∇                      log                      ⁡                                  p                         fake                                 −                      ∇                      log                      ⁡                                  p                         real                                       \nabla \log p_{\text {fake }}-\nabla \log p_{\text {real }}                ∇logpfake −∇logpreal 的估计不正确，最终合成出缺乏可控性的视频，如图 1 所示。直观来看，当                                  Θ                            \Theta                Θ 与                                  θ                            \theta                θ 之间的差异超出可接受容差范围时，通常会出现该问题。一个实际的解决方案是稍微调整                                           p                         real                                       p_{\text {real }}                preal 以使其更好地对齐                                           p                         fake                                       p_{\text {fake }}                pfake 。该调整可以通过调节用于                                           v                         Θ                         real                                       \mathbf{v}_{\Theta}^{\text {real }}                vΘreal 的 LoRA 权重因子                                           α                         weak                                       \alpha_{\text {weak }}                αweak 和用于                                           v                         θ                         fake                                       \mathbf{v}_\theta^{\text {fake }}                vθfake 的                                           α                         strong                                       \alpha_{\text {strong }}                αstrong 来有效实现：
                                                                                                                                                                           v                                        Θ                                        real                                                                     (                                                          x                                           t                                                       ,                                        t                                        )                                                    =                                                    α                                        weak                                                      ζ                                                    (                                                          x                                           t                                                       ,                                        t                                        )                                                    +                                                    v                                        Θ                                        pre-train                                                                     (                                                          x                                           t                                                       ,                                        t                                        )                                                    ,                                                                                                                                                                                                             v                                        θ                                        fake                                                                     (                                                          x                                           t                                                       ,                                        t                                        )                                                    =                                                    α                                        strong                                                      ζ                                                    (                                                          x                                           t                                                       ,                                        t                                        )                                                    +                                                    v                                        Θ                                        pre-train                                                                     (                                                          x                                           t                                                       ,                                        t                                        )                                                    ,                                                                               \begin{aligned} & \mathbf{v}_{\Theta}^{\text {real }}\left(\mathbf{x}_t, t\right)=\alpha_{\text {weak }} \zeta\left(\mathbf{x}_t, t\right)+\mathbf{v}_{\Theta}^{\text {pre-train }}\left(\mathbf{x}_t, t\right), \\ & \mathbf{v}_\theta^{\text {fake }}\left(\mathbf{x}_t, t\right)=\alpha_{\text {strong }} \zeta\left(\mathbf{x}_t, t\right)+\mathbf{v}_{\Theta}^{\text {pre-train }}\left(\mathbf{x}_t, t\right), \end{aligned}                   vΘreal (xt,t)=αweak ζ(xt,t)+vΘpre-train (xt,t),vθfake (xt,t)=αstrong ζ(xt,t)+vΘpre-train (xt,t),
此中，                                           v                         Θ                         pre-train                                       \mathbf{v}_{\Theta}^{\text {pre-train }}                vΘpre-train 表示预训练的扩散模子，                                  ζ                            \zeta                ζ 表示低秩分支。显然，在 W2S 分布匹配的公式 3 中，是用来优化 LoRA 的。当                                           α                         weak                                 =                      0                            \alpha_{\text {weak }}=0                αweak =0 时，                                  W                      2                      S                            W 2 S                W2S 分布匹配退化为尺度的分布匹配，即仅使用 LoRA 优化                                           v                         θ                         fake                                       \mathbf{v}_\theta^{\text {fake }}                vθfake 。我们在实验中默认将                                           α                         strong                                       \alpha_{\text {strong }}                αstrong 固定为 1，并通过得当调整                                           α                         weak                                       \alpha_{\text {weak }}                αweak 来得到经验上的最优解。

图 4. Vanilla DMD 与                                        W                         2                         S                               W 2 S                   W2S VD 对比。Vanilla DMD 面对的一个重大挑衅在于                                                 p                            real                                             p_{\text {real }}                   preal 与由少步生成器                                                 G                            ϕ                                           G_\phi                   Gϕ 合成的样本的可行地区之间没有重叠，这导致对梯度差                                        ∇                         log                         ⁡                                     p                            fake                                       −                         ∇                         log                         ⁡                                     p                            real                                             \nabla \log p_{\text {fake }}-\nabla \log p_{\text {real }}                   ∇logpfake −∇logpreal 的估计不正确。相比之下，                                     W                         2                         S                         V                         D                               W 2 S V D                   W2SVD 通过将                                                 p                            real                                             p_{\text {real }}                   preal 轻微地朝向                                                 p                            fake                                             p_{\text {fake }}                   pfake 平移，缓解了该问题。这一技术性调整确保了两个分布之间有更实质性的重叠，从而提拔了梯度估计过程的正确性。
  命题 3.1（证明见附录                                  C                            C                C）：                                  W                      2                      S                            W 2 S                W2S 分布匹配的优化目的与尺度分布匹配雷同，低秩分支                                  ζ                                  (                                     x                            t                                     ,                         t                         )                                     \zeta\left(\mathrm{x}_t, t\right)                ζ(xt,t) 作为中心西席，有助于更优的优化过程。
我们进一步使用命题 3.1 证明，                                  W                      2                      S                            W 2 S                W2S 分布匹配不但确保了训练的稳定性，还实现了与尺度分布匹配雷同的优化目的。值得注意的是，由于 LoRA 充当了中心西席的角色，                                  W                      2                      S                            W 2 S                W2S 分布匹配还提拔了步调蒸馏（step distillation）的性能。我们的实验证明（见第 4 节），W2S 分布匹配在活动动态、语义一致性和视觉质量方面均优于 vanilla DMD。
3.3. Ground Truth Supervision

                                 W                      2                      S                      V                      D                            W 2 S V D                W2SVD 的另一个关键组成部分是真实数据监视（ground truth supervision），其目的是加强分布匹配的稳定性，并提拔合成视频的视觉质量。few-step 生成器不但需要在                                           p                         real                                     p_{\text{real}}                preal 和                                           p                         fake                                     p_{\text{fake}}                pfake 之间进行分布匹配，还应在                                           p                                     g                            t                                              p_{\mathrm{gt}}                pgt（即                                  p                      (                                  x                                     g                            t                                           )                            p(\mathrm{x}^{\mathrm{gt}})                p(xgt)）和                                           p                         fake                                     p_{\text{fake}}                pfake 之间进行匹配。这一匹配机制作为一种纠正措施，用于应对训练过程中的不稳定性问题，以及由于                                           v                         Θ                         pre-train                                     \mathbf{v}_{\Theta}^{\text{pre-train}}                vΘpre-train 内涵偏差导致的视觉质量下降问题。
在我们的实现中，我们最小化以下 KL 散度                                           L                         reg                                     \mathcal{L}_{\text{reg}}                Lreg：
                                                                                                                                                                           ∇                                        ϕ                                                                   L                                        reg                                                    ≜                                                    E                                        t                                                                   ∇                                        ϕ                                                                   D                                                          K                                           L                                                                                  (                                                          p                                           fake                                                       ∥                                                          p                                                             g                                              t                                                                         )                                                    =                                                    ∇                                        ϕ                                                                   1                                        2                                                    E                                                    [                                                                         ∥                                                                x                                                                      g                                                    t                                                                                  −                                                                x                                                 t                                                                +                                                                σ                                                 t                                                                                  v                                                 θ                                                 fake                                                                (                                                                x                                                 t                                                                ,                                              t                                              )                                              ∥                                                             2                                           2                                                       ]                                                                                                                                                                                                          ≈                                     −                                                    E                                        t                                                                   ∫                                        ϵ                                                                   (                                                          [                                                             x                                                                g                                                 t                                                                            −                                                             x                                              t                                                             +                                                             σ                                              t                                                                            v                                              θ                                              fake                                                             (                                                             x                                              t                                                             ,                                           t                                           )                                           ]                                                                                        ∂                                                                [                                                                      x                                                    t                                                                   −                                                                      σ                                                    t                                                                                        v                                                    θ                                                    fake                                                                   (                                                                      x                                                    t                                                                   ,                                                 t                                                 )                                                 ]                                                                                              ∂                                                                G                                                 ϕ                                                                (                                              ϵ                                              )                                                                                                          ∂                                                                G                                                 ϕ                                                                (                                              ϵ                                              )                                                                            ∂                                              ϕ                                                                         d                                        ϵ                                        )                                                                                                                                                                                                          =                                     −                                                    E                                        t                                                                   ∫                                        ϵ                                                                   (                                                          [                                                             x                                                                g                                                 t                                                                            −                                                             x                                              t                                                             +                                                             σ                                              t                                                                            v                                              θ                                              fake                                                             (                                                             x                                              t                                                             ,                                           t                                           )                                           ]                                                                                        ∂                                                                G                                                 ϕ                                                                (                                              ϵ                                              )                                                                            ∂                                              ϕ                                                                         d                                        ϵ                                        )                                                    ,                                                                                                                                                                                               s.t.                                                      L                                        diffusion                                                    ≤                                     η                                     ,                                                                               \begin{aligned} & \nabla_\phi \mathcal{L}_{\text{reg}} \triangleq \mathbb{E}_t \nabla_\phi \mathcal{D}_{\mathrm{KL}}\left(p_{\text{fake}} \| p_{\mathrm{gt}}\right)=\nabla_\phi \frac{1}{2} \mathbb{E}\left[\left\|\mathbf{x}^{\mathrm{gt}} - \mathbf{x}_t + \sigma_t \mathbf{v}_\theta^{\text{fake}}(\mathbf{x}_t, t)\right\|_2^2\right] \\ & \approx -\mathbb{E}_t \int_\epsilon \left(\left[\mathbf{x}^{\mathrm{gt}} - \mathbf{x}_t + \sigma_t \mathbf{v}_\theta^{\text{fake}}(\mathbf{x}_t, t)\right] \frac{\partial\left[\mathbf{x}_t - \sigma_t \mathbf{v}_\theta^{\text{fake}}(\mathbf{x}_t, t)\right]}{\partial G_\phi(\epsilon)} \frac{\partial G_\phi(\epsilon)}{\partial \phi} d \epsilon\right) \\ & = -\mathbb{E}_t \int_\epsilon \left(\left[\mathbf{x}^{\mathrm{gt}} - \mathbf{x}_t + \sigma_t \mathbf{v}_\theta^{\text{fake}}(\mathbf{x}_t, t)\right] \frac{\partial G_\phi(\epsilon)}{\partial \phi} d \epsilon\right), \\ & \text{ s.t. } \mathcal{L}_{\text{diffusion}} \leq \eta, \end{aligned}                   ∇ϕLreg≜Et∇ϕDKL(pfake∥pgt)=∇ϕ21E[                      xgt−xt+σtvθfake(xt,t)                      22]≈−Et∫ϵ([xgt−xt+σtvθfake(xt,t)]∂Gϕ(ϵ)∂[xt−σtvθfake(xt,t)]∂ϕ∂Gϕ(ϵ)dϵ)=−Et∫ϵ([xgt−xt+σtvθfake(xt,t)]∂ϕ∂Gϕ(ϵ)dϵ), s.t. Ldiffusion≤η,
此中                                  η                            \eta                η 表示一个非常小的量。正如第 4 节所示，                                           L                         reg                                     \mathcal{L}_{\text{reg}}                Lreg 能有效地在活动动态与视觉质量之间实现平衡。
3.4. Detailed Implementation

定制判别器（Tailored Discriminator）。对抗训练是一种提拔 step distillation 性能的有效技术。然而，传统判别器架构主要依赖于基于卷积的设计。为了更好地适应 HunyuanVideo，我们采用基于 DiT 的判别器。具体地，我们将最终双流模块（double block）的输出作为判别器的输入，并采用单流模块（single blocks）中的第一层作为判别器架构，同时使用预训练权重，但不共享参数。
1 步生成器训练（1-Step Generator Training）。使用合成的噪声-图像对进行蒸馏（Liu et al., 2022）可以显著加强 1 步生成器的性能。然而，使用 28 步的 HunyuanVideo 模子来合成噪声-图像对的代价较高，计算开销和时间本钱都非常大。为缓解这一问题，我们采用从 W 2 S W 2 S W2S VD 得到的 4 步生成器来合成噪声-图像对。由于 4 步采样的计算本钱相对较低，该过程可以无缝集成到 W 2 S V D W 2 S \mathrm{VD} W2SVD 的训练流程中，省去了预先合成噪声-图像对的需要。初始阶段，我们将蒸馏损失的权重设置为 1，而 L D M D \mathcal{L}_{\mathrm{DMD}} LDMD 的损失权重设置为 0.25。在 1 步生成器的训练过程中，我们逐渐将蒸馏损失的权重调整为 0.25，同时将 L D M D \mathcal{L}_{\mathrm{DMD}} LDMD 的权重增长到 1，以实现平衡优化。
LoRA 在 HunyuanVideo 中的应用（LoRA in HunyuanVideo）。我们发现，在 deepspeed 框架（Microsoft, 2022）中使用 bfloat16 精度时，LoRA 微调期间的梯度 F-范数显著小于全参数微调期间的梯度，这会导致梯度消失问题。思量到在使用 ZeRO3 的约束条件下，我们通过将 LoRA 相干的损失乘以额外的权重因子 1e4 来解决该问题，从而在正常条件下实现稳定有效的训练。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

(Arxiv-2025)MagicDistillation：用于大规模人像少步合成的弱到强视频蒸馏 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块