SDSeg 的框架如图 1 所示。对于医学图像,我们引入了一个可训练的视觉编码器 τ θ \tau_\theta τθ,将图像 C ∈ R H × W × 3 C\in \mathbb{R}^{H\times W\times 3} C∈RH×W×3 编码为其潜在表现 z c = τ θ ( C ) z_c=\tau_\theta(C) zc=τθ(C)。对于分割图,我们利用一个自编码器举行感知压缩。如图 1 所示,给定像素空间中的分割图 X ∈ R H × W × 3 X\in \mathbb{R}^{H\times W\times 3} X∈RH×W×3,编码器 E \mathcal{E} E 将 X X X 编码为一个潜在表现 z = E ( X ) z=\mathcal{E}(X) z=E(X),解码器 D \mathcal{D} D 则从潜在表现中规复分割图,得到重构 X ~ = D ( z ) = D ( E ( X ) ) \widetilde{X}=\mathcal{D}(z)=\mathcal{D}(\mathcal{E}(X)) X =D(z)=D(E(X)),其中 z ∈ R h × w × c z\in \mathbb{R}^{h\times w\times c} z∈Rh×w×c。
在训练阶段,第一时间步的分割图潜在表现 z 0 z_0 z0会添加 t t t个时间步的高斯噪声,得到 z t z_t zt。扩散的前向过程可以表现为:
z t = α ˉ t z 0 + 1 − α ˉ t n z_t = \sqrt{\bar{\alpha}_t}z_0+\sqrt{1-\bar{\alpha}_t}{n} zt=αˉt z0+1−αˉt n
其中 n n n 是随机高斯噪声, α ˉ t \bar{\alpha}_t αˉt 是控制前向过程的超参数。每个训练步调中,去噪 U-Net 的目标是估计随机高斯噪声 n n n 的分布,表现为 n ~ = f ( z t ; z c ) \tilde{n} = f(z_t;z_c) n~=f(zt;zc),其中 f ( ⋅ ) f(\cdot) f(⋅) 表现去噪 U-Net。噪声猜测损失可以表现为 L n o i s e = L ( n ~ , n ) \mathcal{L}_{noise}=\mathcal{L}(\tilde{n}, n) Lnoise=L(n~,n)。
在旨在生成多样且语义丰富图像的任务中,逆向过程中逐步应用噪声估计可以逐步改进效果。然而,我们以为分割图过于简单,不需要通过复杂的逆向过程来实现显著的改进。相反,经过有用训练的去噪U-Net能够规复包罗全部须要结构和空间特征的潜在特征,实用于分割图。因此,在获得估计噪声 n ~ \tilde{n} n~ 后,我们可以通过简单的变换直接推导出相应的潜在估计:
z ~ 0 = 1 α ˉ t ( z t − 1 − α ˉ t n ~ ) \tilde{z}_0=\frac{1}{\sqrt{\bar{\alpha}_t}}(z_t-\sqrt{1-\bar{\alpha}_t}{\tilde{n}}) z~0=αˉt 1(zt−1−αˉt n~)
这种技术使得可以轻松添加一个监视分支,优化目标是最小化猜测的 z ~ 0 \tilde{z}_0 z~0 与真实 z 0 z_0 z0 之间的差别,潜在损失函数定义为 L l a t e n t = L ( z ~ 0 , z 0 ) \mathcal{L}_{latent}=\mathcal{L}(\tilde{z}_0, z_0) Llatent=L(z~0,z0)。因此,最终的损失函数可以表现为:
L = L n o i s e + λ L l a t e n t \mathcal{L}=\mathcal{L}_{noise}+\lambda\mathcal{L}_{latent} L=Lnoise+λLlatent
其中 λ \lambda λ 表现潜在损失函数的权重。在实践中, λ \lambda λ设为1, L n o i s e \mathcal{L}_{noise} Lnoise 和 L l a t e n t \mathcal{L}_{latent} Llatent 均为平均绝对偏差。
值得留意的是,仅使用 L n o i s e \mathcal{L}_{noise} Lnoise 和多次DDIM抽样可以生成精彩的分割效果。引入 L l a t e n t \mathcal{L}_{latent} Llatent 的最大贡献在于消除生身分割图的冗余逆向过程,从而显著进步推理阶段的速度。
Concatenate Latent Fusion
SDSeg 在单个V100 GPU上训练,具有 16GB RAM。模型使用 AdamW 优化器举行训练,基础学习率为 1 × 1 0 − 5 1\times 10^{-5} 1×10−5,总共训练 100,000 个步调。默认环境下,批巨细设置为 4。我们使用 KL 正则化自编码器和下采样率 r = H h = W w = 8 r=\frac{H}{h}=\frac{W}{w}=8 r=hH=wW=8的LDM模型。SDSeg 将 RGB 图像作为像素空间输入,其中 H = W = 256 H=W=256 H=W=256,相应的潜在表现形状为 h = w = 32 h=w=32 h=w=32, c = 4 c=4 c=4。全部模型部门均使用稳定扩散提供的预训练权重举行初始化。用于串联输入的去噪 U-Net 的额外模型参数被初始化为零。
Inference Stage
在推理阶段,我们将随机生成的高斯噪声与医学图像的潜在表现举行串联。然后,去噪U-Net猜测估计的噪声,使得 SDSeg 可以推导出潜在估计 z ~ 0 \tilde{z}_0 z~0。接着,解码器 D \mathcal{D} D 将潜在估计转换为像素空间,得到最终的猜测效果。如表 4 所示,SDSeg 无需外部采样器,只需举行单步逆向操作举行一次采样,即可实现稳定的猜测。
Main Results