图像恢复与均值回归随机微分方程
翻译:
摘要
本文提出了一种基于随机微分方程(SDE)的方法,用于通用图像恢复。关键构建是一个均值回归的随机微分方程,它将一幅高质量的图像转化为一个退化的图像,这个退化图像被视为具有固定高斯噪声的均值状态。然后,通过模仿相应的反向时间随机微分方程,我们可以或许恢复低质量图像的原始状态,而无需依赖任何特定任务的先验知识。关键在于,所提出的均值回归随机微分方程有一个封闭解,使我们可以或许盘算出与时间相关的真实得分,并通过神经网络进行学习。别的,我们提出了一个最大似然目的,以学习一个最优的反向轨迹,从而稳定练习过程并改善恢复结果。实验表明,我们提出的方法在图像去雨、去含糊和去噪的定量比较中表现精彩,在两个去雨数据集上设立了新的开始进的水平。末了,通过图像超分辨率、修复和去雾的定性结果,进一步展示了我们方法的广泛适用性。代码可在 https://github.com/Algolzw/image-restoration-sde 获得。
解释:
这篇论文介绍了一种新的图像恢复方法,使用的是一种叫做“随机微分方程”(SDE)的数学模型。核心思路是:通过一个均值回归的过程,模仿从一张高质量的图像到一张降级(含糊、噪声等)图像的转化。这种转化过程是通过到场固定的噪声来实现的,类似于“污染”图像。然后,通过逆向模仿这个过程,我们可以或许恢复出原始的高质量图像。
这项技术特别之处在于,它不依赖于特定领域的知识或复杂的预处理惩罚,仅依赖这个均值回归的随机微分方程,且这个方程有明白的数学解,因此可以通过神经网络来学习和恢复图像。为了让这个恢复过程更加稳定和有效,作者还提出了一种最大似然方法来优化图像恢复的路径。
实验结果表明,这种方法在去除雨滴、去含糊和去噪等任务上表现非常好,并且在去雨任务中创下了新的最佳记载。作者还展示了这项方法在其他任务(如图像超分辨率、图像修复和去雾)中的广泛应用,证明了它的通用性。代码也已经公开,感兴趣的人可以在 GitHub 上找到并使用。
翻译:
- 引言
扩散模型在各种图像天生任务中表现出了令人印象深刻的性能,基于建模扩散过程并学习其逆过程(Sohl-Dickstein 等,2015;Ho 等,2020;Song & Ermon,2019;2020;Song 等,2021a;b;c;Rombach 等,2022;Rissanen 等,2022)。在常用的几种模型中(Yang 等,2022),我们接纳通过随机微分方程(SDEs,Song 等,2021b;c)界说的扩散模型。这一过程包罗使用 SDE 将图像徐徐扩散到纯噪声分布,然后通过学习并模仿相应的反向时间 SDE 来天生样本(Anderson,1982)。其核心是练习神经网络来估计噪声数据分布的得分函数(Song & Ermon,2019)。
图像恢复是一个从退化的低质量图像中恢复高质量图像的通用任务。常见的具体任务包罗去雨(Li 等,2019;Ren 等,2019)、去含糊(Nah 等,2017;Zhang 等,2020)、去噪(Zhang 等,2017a;2018a)和超分辨率(Dong 等,2015;Lugmayr 等,2020;Luo 等,2022a)等,仅举几例。图像恢复有着丰富的汗青(Hunt,1973;Andrews,1974;Sezan & Tekalp,1990;Banham & Katsaggelos,1997),并且仍然是盘算机视觉领域中的一个生动话题,学习型方法在其中占据了告急地位(Zhang & Zuo,2017;Zhang 等,2017b;Wang 等,2022;Xiao 等,2022)。
解释:
在这段文字中,作者介绍了扩散模型的基本概念和它在图像恢复任务中的应用。扩散模型是一种图像天生方法,它首先通过模仿一个扩散过程将清楚图像徐徐转变成噪声,然后通过学习该过程的反向过程,天生新的图像。关键技术是利用随机微分方程(SDE)来形貌这个过程,练习神经网络来预测噪声图像的“得分函数”,即如何通过反向过程恢复出清楚的图像。
图像恢复是一个涉及从低质量图像中恢复高质量图像的任务,常见的例子包罗去除图像中的雨滴(去雨)、去除含糊(去含糊)、去除噪声(去噪)和提升图像分辨率(超分辨率)等。图像恢复技术已经有了很长的汗青,并且随着深度学习的鼓起,学习型方法在这些任务中变得尤为告急。
翻译:
扩散模型最近被应用于差别的图像恢复任务。Saharia 等人(2022b;a)练习了条件化的扩散模型,以低质量图像为条件,而 Lugmayr 等人(2022)则利用了预练习的无条件模型,并联合了修改过的天生过程。其他研究则显式地将图像恢复视为一个逆问题,假设在测试时已知退化过程及其参数(Kawar 等人,2021;Chung 等人,2023;Kawar 等人,2022)。这些方法都接纳了标准的前向过程,将图像扩散成纯噪声。因此,反向(天生)过程通常以高方差的噪声初始化,这可能导致恢复出的高质量图像与原图之间差别较大。许多实验表明,尽管扩散模型能在感知评分上表现更好,但在某些基于像素或结构的失真标准上往往表现不佳(Saharia 等,2022b;Li 等,2022;Kawar 等,2021)。
为了办理这个问题,我们提出使用均值回归的随机微分方程(SDE)来办理图像恢复问题。如图1所示,我们通过修改前向过程,使其可以或许模仿图像退化过程,从高质量图像到低质量图像的转变。通过模仿相应的反向时间 SDE,可以恢复出高质量图像。值得注意的是,在测试时,恢复过程不需要任何特定任务的先验知识,只需一对图像作为练习数据。我们的重要贡献如下:
- 我们提出了一种通用的图像恢复方法,使用均值回归 SDE 直接建模图像退化过程。我们的公式具有封闭解,使得我们可以或许盘算出与时间相关的真实得分函数,并练习神经网络来估计它。
- 我们提出了一种简朴的替代丧失函数,用于练习神经网络,基于最大化反向时间轨迹的似然性。证明该丧失函数可以或许稳定练习,并始终改善图像恢复性能,相比于常见的得分匹配目的。
- 我们通过应用于六个差别的图像恢复任务(去雨、去含糊、去噪、超分辨率、修复和去雾),展示了我们方法的广泛适用性。
- 我们的方法在图像去雨、去含糊和去噪的定量比较中取得了非常具有竞争力的恢复性能,并在两个去雨数据集上设立了新的开始进水平。
解释:
这段文字介绍了图像恢复中使用扩散模型的差别方法,并提出了一种新的方法来改进图像恢复效果。
- 过去的扩散模型经常把图像徐徐扩散成噪声,再通过反向过程恢复图像,但这种方法通常会导致恢复的图像与原始高质量图像之间有较大的差距。
- 为了办理这个问题,作者提出了一个新的方法——使用“均值回归随机微分方程”(SDE)来模仿图像退化过程。这个方法不仅能模仿从高质量图像到低质量图像的退化过程,还能在测试时直接恢复出高质量图像,且无需额外的任务特定先验知识。
- 该方法的一个告急创新是,它具有封闭解,可以资助盘算真实的时间相关得分,并通过神经网络来学习这些得分函数。别的,作者还提出了一种新的丧失函数,可以或许资助稳定练习过程并进步恢复效果。
- 通过在六种图像恢复任务(去雨、去含糊、去噪、超分辨率、修复和去雾)中的应用,作者证明了该方法的通用性,并在两个去雨数据集上取得了新的开始进成绩。
简而言之,作者提出的方法在图像恢复领域表现精彩,尤其是在去雨、去含糊和去噪任务中,并且它的广泛适用性使得它在其他任务中也能得到很好的应用。
翻译:
- 配景
在这一部门,我们简要回顾了基于随机微分方程(SDE)的扩散模型的关键概念,并展示了如何使用逆向时间SDE天生样本的过程。设 p 0 p_0 p0表示代表数据的初始分布, t ∈ [ 0 , T ] t \in [0, T] t∈[0,T]表示连续时间变量。我们考虑一个由SDE界说的扩散过程 { x ( t ) } t = 0 T \{x(t)\}_{t=0}^{T} {x(t)}t=0T,形式如下:
d x = f ( x , t ) d t + g ( t ) d w , x ( 0 ) ∼ p 0 ( x ) , ( 1 ) dx = f(x, t) dt + g(t) dw, \quad x(0) \sim p_0(x), \quad (1) dx=f(x,t)dt+g(t)dw,x(0)∼p0(x),(1)
其中 f f f和 g g g分别是漂移和扩散函数, w w w是一个标准Wiener过程, x ( 0 ) ∈ R d x(0) \in \mathbb{R}^d x(0)∈Rd是一个初始条件。通常,终端状态 x ( T ) x(T) x(T)遵循具有固定均值和方差的高斯分布。一般的想法是设计这样一个SDE,使其徐徐将数据分布转化为固定的高斯噪声(Song et al., 2021c; Lu et al., 2022; De Bortoli et al., 2022)。然后我们可以通过时间逆向模仿SDE从噪声中采样数据(Song et al., 2021c)。Anderson (1982) 表明,SDE (1) 的逆向时间表示为:
d x = [ h f ( x , t ) − g ( t ) 2 2 ∇ x log p t ( x ) ] d t + g ( t ) d w ^ , ( 2 ) dx = \left[ h f(x, t) - \frac{g(t)^2}{2} \nabla_x \log p_t(x) \right] dt + g(t) d\hat{w}, \quad (2) dx=[hf(x,t)−2g(t)2∇xlogpt(x)]dt+g(t)dw^,(2)
其中 x ( T ) ∼ p T ( x ) x(T) \sim p_T(x) x(T)∼pT(x)。这里, w ^ \hat{w} w^是一个逆向时间Wiener过程, p t ( x ) p_t(x) pt(x)代表时间 t t t时 x ( t ) x(t) x(t)的边际概率密度函数。得分函数 ∇ x log p t ( x ) \nabla_x \log p_t(x) ∇xlogpt(x)通常难以处理惩罚,因此基于SDE的扩散模型通过练习一个时间依赖的神经网络 s θ ( x , t ) s_\theta(x, t) sθ(x,t)在所谓的得分匹配目的下近似它(Hyva ̈rinen, 2005; Song et al., 2021c)。
解释:
想象一下,我们有一堆数据,这些数据开始时是有序的,并且遵循某种分布,我们称之为初始分布 p 0 p_0 p0。现在,我们想要通过模仿一个过程,让这些数据徐徐变得像随机噪声一样,这个过程可以用一个随机微分方程(SDE)来形貌。这个SDE有一个漂移项 f ( x , t ) f(x, t) f(x,t)和一个扩散项 g ( t ) g(t) g(t),漂移项决定了数据随时间的均匀变化方向,而扩散项决定了数据变化的随机性大小。随着时间的推移,这些数据最终会变成像高斯分布那样的随机噪声。
现在,如果我们想要从这些随机噪声中恢复出原来的数据,我们可以将这个过程反过来,也就是逆向模仿这个SDE。这样,我们就可以从未成形的噪声中天生出故意义的数据样本。但是,在这个逆向过程中,我们需要知道数据在每个时间点的概率密度函数 p t ( x ) p_t(x) pt(x),这通常很难直接得到。因此,我们使用一个神经网络来近似这个概率密度函数的梯度,也就是得分函数 ∇ x log p t ( x ) \nabla_x \log p_t(x) ∇xlogpt(x),这样我们就可以在不知道确切概率密度函数的环境下,通过练习神经网络来模仿这个过程。
翻译:
- 方法
我们提出的图像恢复方法的核心思想是将均值回复的随机微分方程(SDE)与最大似然目的联合,进行神经网络练习。因此,我们将其称为图像恢复随机微分方程(IR-SDE)。我们首先形貌均值回复 SDE 的正向和反向过程,并调整先前形貌的基于得分的练习方法来估计该 SDE。然后,我们形貌并将其与基于最大似然目的的丧失函数进行对比。
3.1 图像退化的正向 SDE
我们构造了 SDE(1)的一个特别环境,其中得分函数是可解析处理惩罚的,如下所示:
d x = θ t ( μ − x ) d t + σ t d w , dx = \theta_t (\mu - x) dt + \sigma_t dw, dx=θt(μ−x)dt+σtdw,
其中 μ \mu μ 是状态的均值, θ t \theta_t θt 和 σ t \sigma_t σt 是时间依赖的正参数,分别控制均值回复的速率和随机颠簸性。选择 θ t \theta_t θt 和 σ t \sigma_t σt 有很大的自由度,正如我们将在第 5.3 节中看到的,选择的差别可能会对最终的恢复性能产生显著影响。
通常, μ \mu μ 和初始状态 x ( 0 ) x(0) x(0) 可以设置为任何一对差别的图像。正向 SDE(3)然后将一个图像转化为另一个图像,作为一种噪声插值。为了进行图像退化,我们令 x ( 0 ) x(0) x(0) 和 μ \mu μ 分别为真实高质量(HQ)图像和其退化后的低质量(LQ)对应图像(见图 1)。值得注意的是,固然 μ \mu μ 依赖于 x ( 0 ) x(0) x(0)(由于它们是同一物体或场景的配对 HQLQ 图像), x ( 0 ) x(0) x(0) 与布朗运动无关,因此 SDE 仍然在伊藤(Ito)意义下是有效的。
为了使我们的 SDE(3)具有闭式解,我们设置 σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2,其中 λ 2 \lambda^2 λ2 是稳定方差。由此,我们得到以下结果:
命题 3.1 假设(3)中的 SDE 系数满足 σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2,对于所有时间 t t t,那么,给定任何时间 s < t s < t s<t 的起始状态 x ( s ) x(s) x(s),SDE 的解为:
x ( t ) = μ + ( x ( s ) − μ ) e − θ s : t + ∫ s t σ z e − θ z : t d w ( z ) , x(t) = \mu + (x(s) - \mu) e^{-\theta_{s:t}} + \int_s^t \sigma_z e^{-\theta_{z:t}} dw(z), x(t)=μ+(x(s)−μ)e−θs:t+∫stσze−θz:tdw(z),
其中 θ s : t : = ∫ s t θ z d z \theta_{s:t} := \int_s^t \theta_z dz θs:t:=∫stθzdz 是已知的,过渡核 p ( x ( t ) ∣ x ( s ) ) = N ( x ( t ) ∣ m s : t ( x ( s ) ) , v s : t ) p(x(t) | x(s)) = \mathcal{N}(x(t) | m_{s:t}(x(s)), v_{s:t}) p(x(t)∣x(s))=N(x(t)∣ms:t(x(s)),vs:t) 是一个高斯分布,均值为 m s : t m_{s:t} ms:t,方差为 v s : t v_{s:t} vs:t,给定为:
m s : t ( x ( s ) ) : = μ + ( x ( s ) − μ ) e − θ s : t , m_{s:t}(x(s)) := \mu + (x(s) - \mu) e^{-\theta_{s:t}}, ms:t(x(s)):=μ+(x(s)−μ)e−θs:t,
v s : t : = ∫ s t σ z 2 e − 2 θ z : t d z = λ 2 ( 1 − e − 2 θ s : t ) . v_{s:t} := \int_s^t \sigma_z^2 e^{-2 \theta_{z:t}} dz = \lambda^2 \left( 1 - e^{-2 \theta_{s:t}} \right). vs:t:=∫stσz2e−2θz:tdz=λ2(1−e−2θs:t).
证明见附录 A。为了简化符号,当起始状态是 x ( 0 ) x(0) x(0) 时,我们将 θ 0 : t \theta_{0:t} θ0:t、 m 0 : t m_{0:t} m0:t、 v 0 : t v_{0:t} v0:t 分别替换为 θ t \theta_t θt、 m t m_t mt、 v t v_t vt。于是,给定初始状态,恣意时候 t t t 的 x ( t ) x(t) x(t) 的分布为:
p t ( x ) = N ( x ( t ) ∣ m t ( x ) , v t ) , p_t(x) = \mathcal{N}(x(t) | m_t(x), v_t), pt(x)=N(x(t)∣mt(x),vt),
m t ( x ) : = μ + ( x ( 0 ) − μ ) e − θ t , m_t(x) := \mu + (x(0) - \mu) e^{-\theta_t}, mt(x):=μ+(x(0)−μ)e−θt,
v t : = λ 2 ( 1 − e − 2 θ t ) . v_t := \lambda^2 \left( 1 - e^{-2 \theta_t} \right). vt:=λ2(1−e−2θt).
注意,当 t → ∞ t \to \infty t→∞ 时,均值 m t m_t mt 收敛到低质量图像 μ \mu μ,方差 v t v_t vt 收敛到稳定方差 λ 2 \lambda^2 λ2(因此称为“均值回复”)。换句话说,正向 SDE(3)将高质量图像扩散为具有固定高斯噪声的低质量图像。
解释:
这段话介绍了我们图像恢复方法中的核心部门,即如何通过均值回复的随机微分方程(SDE)来形貌图像的退化过程。
- 图像退化的正向 SDE:我们首先界说了一个特别的 SDE(3),用于形貌图像如何从高质量(HQ)图像变为低质量(LQ)图像。在这个过程中,图像通过一个控制均值回复速率( θ t \theta_t θt)和颠簸性( σ t \sigma_t σt)的方程徐徐退化。
- 均值回复:在这个 SDE 中, μ \mu μ 代表目的的低质量图像, x ( 0 ) x(0) x(0) 是原始的高质量图像。通过模仿这个 SDE,我们将高质量图像转化为低质量图像,并在这个过程中引入噪声。这个过程被称为“均值回复”,即图像徐徐靠近低质量图像,并带有肯定的噪声。
- 闭式解:为了方便分析,我们通过一个特定的条件( σ t 2 θ t = 2 λ 2 \frac{\sigma_t^2}{\theta_t} = 2 \lambda^2 θtσt2=2λ2)使得该 SDE 具有闭式解。这样,我们可以形貌在恣意时候 t t t,图像状态的均值和方差,进而资助我们恢复图像。
总的来说,正向 SDE 通过模仿图像的退化过程,将高质量图像变为低质量图像,并且可以通过反向 SDE 进行图像恢复。
翻译:
3.2 反向 SDE 用于图像恢复
为了从终态 x ( T ) x(T) x(T) 恢复高质量图像,我们根据公式(2)反向推导 SDE(3),得到图像恢复 SDE(IR-SDE):
d x = θ t ( μ − x ) − σ t 2 2 ∇ x log p t ( x ) d t + σ t d w ^ . dx = \theta_t (\mu - x) - \frac{\sigma_t^2}{2} \nabla_x \log p_t(x) \, dt + \sigma_t \, dw^{\hat{}}. dx=θt(μ−x)−2σt2∇xlogpt(x)dt+σtdw^.
在测试时,唯一未知的部门是在时候 t t t 的边际分布的得分 ∇ x log p t ( x ) \nabla_x \log p_t(x) ∇xlogpt(x)。但是在练习时,真实的高质量图像 x ( 0 ) x(0) x(0) 是可用的,因此我们可以练习一个神经网络来估计条件得分 ∇ x log p t ( x ∣ x ( 0 ) ) \nabla_x \log p_t(x | x(0)) ∇xlogpt(x∣x(0))。具体地,我们可以使用公式(6)盘算真实的得分:
∇ x log p t ( x ∣ x ( 0 ) ) = − x ( t ) − m t ( x ) v t . \nabla_x \log p_t(x | x(0)) = - \frac{x(t) - m_t(x)}{v_t}. ∇xlogpt(x∣x(0))=−vtx(t)−mt(x).
这类似于标准的去噪得分匹配方法,它也基于干净图像及其噪声对应图像盘算真实得分(Hyv ̈arinen, 2005)。
别的,如果我们将 x ( t ) x(t) x(t) 重新参数化为 x ( t ) = m t ( x ) + v t ϵ t x(t) = m_t(x) + \sqrt{v_t} \, \epsilon_t x(t)=mt(x)+vt ϵt,其中 ϵ t \epsilon_t ϵt 是标准高斯噪声 ϵ t ∼ N ( 0 , I ) \epsilon_t \sim \mathcal{N}(0, I) ϵt∼N(0,I),我们可以直接通过噪声来获得得分:
∇ x log p t ( x ∣ x ( 0 ) ) = − ϵ t v t . \nabla_x \log p_t(x | x(0)) = - \frac{\sqrt{\epsilon_t}}{v_t}. ∇xlogpt(x∣x(0))=−vtϵt .
然后,我们遵循通例做法,通过噪声网络来逼近噪声(Ho et al., 2020),即一个条件时间依赖的神经网络 ϵ ~ ϕ ( x ( t ) , μ , t ) \tilde{\epsilon}_\phi(x(t), \mu, t) ϵ~ϕ(x(t),μ,t),它将状态 x x x、条件 μ \mu μ 和时间 t t t 作为输入,并输出纯噪声。这样的网络可以使用与 DDPM 中类似的目的进行练习(Ho et al., 2020):
L γ ( ϕ ) : = ∑ i = 1 T γ i E [ ∥ ϵ ~ ϕ ( x i , μ , i ) − ϵ i ∥ 2 ] , L_\gamma(\phi) := \sum_{i=1}^{T} \gamma_i \mathbb{E} \left[ \| \tilde{\epsilon}_\phi(x_i, \mu, i) - \epsilon_i \|^2 \right], Lγ(ϕ):=i=1∑TγiE[∥ϵ~ϕ(xi,μ,i)−ϵi∥2],
其中 γ 1 , … , γ T \gamma_1, \dots, \gamma_T γ1,…,γT 是正的权重, { x i } i = 0 T \{x_i\}_{i=0}^{T} {xi}i=0T 表示扩散过程的离散化。一旦练习完成,我们可以使用网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ 天生高质量图像,通过对噪声状态 x T x_T xT 进行采样,并迭代地求解图像恢复 SDE(7),接纳数值方案,如欧拉–马鲁亚马方法或米尔斯坦方法(Mil’stein, 1975)。
解释:
这段话形貌了如何利用反向随机微分方程(SDE)恢复图像。具体过程如下:
- 反向 SDE:我们从图像的终态 x ( T ) x(T) x(T) 开始,通过反向推导得到恢复图像的方程(图像恢复 SDE)。该方程中,最告急的部门是得分 ∇ x log p t ( x ) \nabla_x \log p_t(x) ∇xlogpt(x),它形貌了图像在每个时候的状态。得分在练习时可以通过已知的高质量图像 x ( 0 ) x(0) x(0) 来估算,但在测试时我们需要从噪声中恢复得分。
- 得分盘算:在练习过程中,由于真实的高质量图像 x ( 0 ) x(0) x(0) 是已知的,我们可以通过公式(8)盘算得分,即通过当前图像 x ( t ) x(t) x(t) 和其均值 m t ( x ) m_t(x) mt(x) 来估计得分。这就像去噪时,我们通过干净的图像和带噪声的图像来估计噪声的得分(Hyv ̈arinen, 2005)。
- 噪声重参数化:为了方便盘算,我们将图像 x ( t ) x(t) x(t) 重新表达为均值 m t ( x ) m_t(x) mt(x) 加上噪声项 v t ϵ t \sqrt{v_t} \, \epsilon_t vt ϵt,其中 ϵ t \epsilon_t ϵt 是一个标准高斯噪声。这使得我们可以直接通过噪声来盘算得分(公式9)。
- 噪声网络:为了练习模型,使用了一个噪声网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ,它接受图像状态 x ( t ) x(t) x(t)、低质量图像 μ \mu μ 和时间 t t t 作为输入,输出噪声值。通过对这个噪声网络进行练习,我们可以使其可以或许在测试时预测恢复图像。
- 练习目的:我们使用一个目的函数(公式10)来练习噪声网络,目的是让网络的输出噪声尽可能靠近真实噪声。通过这个练习,我们让网络学会如何从噪声中恢复出高质量的图像。
- 图像恢复:一旦网络练习完成,就可以通过采样初始噪声状态 x T x_T xT,并迭代求解反向 SDE,徐徐恢复高质量图像。求解时,使用数值方法如欧拉法或米尔斯坦方法进行盘算。
翻译
3.3 最大似然学习
尽管公式 (10) 中的目的函数提供了一种简朴的方法来学习评分函数,我们在现实应用中发现,当将其应用于图像恢复中的复杂退化时,练习往往变得不稳定。我们推测这种困难来源于试图学习在某一时候的瞬时噪声。因此,我们提出了一种替代的最大似然目的,基于探求给定高质量图像 x 0 x_0 x0 时的最优轨迹 x 1 : T x_{1:T} x1:T 的思路。请注意,这个目的并不是为了学习一个更准确的评分函数,而是用来稳定练习并恢复更精确的图像。
具体来说,我们希望最大化似然函数 p ( x 1 : T ∣ x 0 ) p(x_{1:T} | x_0) p(x1:T∣x0),这个似然函数可以按如下方式分解:
p ( x 1 : T ∣ x 0 ) = p ( x T ∣ x 0 ) ∏ i = 2 T p ( x i − 1 ∣ x i , x 0 ) , p(x_{1:T} | x_0) = p(x_T | x_0) \prod_{i=2}^{T} p(x_{i-1} | x_i, x_0), p(x1:T∣x0)=p(xT∣x0)i=2∏Tp(xi−1∣xi,x0),
其中 p ( x T ∣ x 0 ) = N ( x T ; m T ( x 0 ) , v T ) p(x_T | x_0) = \mathcal{N}(x_T; m_T(x_0), v_T) p(xT∣x0)=N(xT;mT(x0),vT) 是低质量图像的分布。然后,可以根据贝叶斯规则推导出反向转移:
p ( x i − 1 ∣ x i , x 0 ) = p ( x i ∣ x i − 1 , x 0 ) p ( x i − 1 ∣ x 0 ) p ( x i ∣ x 0 ) . p(x_{i-1} | x_i, x_0) = \frac{p(x_i | x_{i-1}, x_0) p(x_{i-1} | x_0)}{p(x_i | x_0)}. p(xi−1∣xi,x0)=p(xi∣x0)p(xi∣xi−1,x0)p(xi−1∣x0).
由于所有的分布都是高斯分布,可以从命题 3.1 中盘算得到,因此我们可以直接找到最优的反向状态,该状态最小化负对数似然:
x i − 1 ∗ = arg min x i − 1 [ − log p ( x i − 1 ∣ x i , x 0 ) ] , x^*_{i-1} = \arg\min_{x_{i-1}} \left[ -\log p(x_{i-1} | x_i, x_0) \right], xi−1∗=argxi−1min[−logp(xi−1∣xi,x0)],
其中我们令 x i − 1 ∗ x^*_{i-1} xi−1∗ 表示从 x i x_i xi 反转过来的抱负状态。
为了简化符号,我们令 θ i ′ : = ∫ i − 1 i θ t d t \theta'_i := \int_{i-1}^i \theta_t dt θi′:=∫i−1iθtdt。通过求解上述目的函数,我们得到以下结果:
命题 3.2 给定初始状态 x 0 x_0 x0,对于恣意的状态 x i x_i xi(当离散时间 i > 0 i > 0 i>0 时),IR-SDE 的最优反向解 x i − 1 ∗ x^*_{i-1} xi−1∗ 给出如下:
x i − 1 ∗ = 1 − e − 2 θ ˉ i − 1 1 − e − 2 θ ˉ i e − θ i ′ ( x i − μ ) + 1 − e − 2 θ i ′ 1 − e − 2 θ ˉ i − 1 e − θ ˉ i − 1 ( x 0 − μ ) + μ . x^*_{i-1} = \frac{1 - e^{-2 \bar{\theta}_{i-1}}}{1 - e^{-2 \bar{\theta}_i}} e^{-\theta'_i} (x_i - \mu) + \frac{1 - e^{-2 \theta'_i}}{1 - e^{-2 \bar{\theta}_{i-1}}} e^{-\bar{\theta}_{i-1}} (x_0 - \mu) + \mu. xi−1∗=1−e−2θˉi1−e−2θˉi−1e−θi′(xi−μ)+1−e−2θˉi−11−e−2θi′e−θˉi−1(x0−μ)+μ.
证明见附录 A。请注意,我们也可以利用这个目的推导出 DDPM1 的均值。然后,我们选择优化噪声网络 ϵ ~ ϕ ( x i , μ , i ) \tilde{\epsilon}_\phi(x_i, \mu, i) ϵ~ϕ(xi,μ,i),使得 IR-SDE 反向过程与最优轨迹一致,即:
J γ ( ϕ ) : = ∑ i = 1 T γ i E [ ∣ x i − ( d x i ) ϵ ~ ϕ ∣ reversed x i − 1 − x i − 1 ∗ ∣ ] , J_\gamma(\phi) := \sum_{i=1}^T \gamma_i \mathbb{E} \left[ \left| x_i - (dx_i) \tilde{\epsilon}_\phi | \text{reversed } x_{i-1} - x^*_{i-1} \right| \right], Jγ(ϕ):=i=1∑TγiE[ xi−(dxi)ϵ~ϕ∣reversed xi−1−xi−1∗ ],
其中 ( d x i ) ϵ ~ ϕ (dx_i) \tilde{\epsilon}_\phi (dxi)ϵ~ϕ 表示公式 (7) 中的反向时间 SDE,其评分由噪声网络 ϵ ~ ϕ \tilde{\epsilon}_\phi ϵ~ϕ 预测。请注意,马尔可夫过程的盼望 ∫ 0 t σ s d w ^ ( s ) \int_0^t \sigma_s dw^{\hat{}}(s) ∫0tσsdw^(s) 为零,这意味着我们只需要考虑 (dx) 中的漂移部门。
解释
在这一部门,我们提出了一种替代的最大似然学习方法来办理图像恢复问题。与之前的基于评分匹配的方法差别,我们的方法的核心目的是通过最大化图像序列的似然函数来稳定练习,并实现更好的图像恢复。
- 目的函数分解为每一时候的状态概率和前一个状态的条件概率之积,反向过程的推导则依赖于贝叶斯公式。
- 通过最大化这个目的,我们可以得到从当前图像恢复到抱负状态的最优路径(最优的反向轨迹)。
- 具体来说,通过调整反向过程,我们不仅可以或许稳定练习,还可以或许使得恢复的图像更靠近真实的高质量图像。
- 通过使用噪声网络(类似于去噪过程中的神经网络),我们可以预测反向过程的噪声,并通过练习使得天生的图像更加准确。
简而言之,这种方法不仅办理了评分匹配方法练习不稳定的问题,还通过最大似然方法稳定了练习过程,从而恢复出更高质量的图像。
图1 我们提出的构造概述,其中使用均值回复型 SDE (3) 来进行图像恢复。该 SDE 模型形貌了从高质量图像 x ( 0 ) x(0) x(0) 到其低质量对应物 μ \mu μ 的退化过程,通过将 x ( 0 ) x(0) x(0) 扩散到低质量图像 μ + ϵ \mu + \epsilon μ+ϵ 的噪声版本。在模仿对应的反向时间 SDE 后,可以恢复出高质量的图像。
解释
介绍了一个用于图像恢复的过程。我们使用了一种叫做均值回复型随机微分方程(SDE)的数学模型来形貌图像的退化过程。具体来说,这个 SDE 形貌了一个高质量图像 x ( 0 ) x(0) x(0) 如何退化成一个低质量图像 μ \mu μ,其中到场了噪声项 ϵ \epsilon ϵ。
在这个退化过程中,图像 x ( 0 ) x(0) x(0) 被徐徐“扩散”成带有噪声的低质量图像 μ + ϵ \mu + \epsilon μ+ϵ。然后,通过模仿这个过程的反向时间 SDE,我们可以一步步地恢复回原来的高质量图像。
简而言之,这个过程首先模仿图像退化的过程,然后反向利用,徐徐恢复出原始的高质量图像。
翻译
我们在三项流行的图像修复任务上实验性地评估了我们提出的 IR-SDE 方法:图像去雨、去含糊和去噪。我们将 IR-SDE 与各自领域中现有的主流方法进行了比较。在每个子章节中,我们还陈诉了 CNN 基线模型的性能。CNN 基线模型以低质量图像为输入,直接输出高质量版本。它使用与我们 IR-SDE 雷同的网络架构,但通过最小化输出与真实图像之间的 L1 丧失来进行练习。别的,我们还提出了一个特别的 SDE 和常微分方程(ODE)来处理惩罚高斯去噪任务。在所有任务中,我们陈诉了 Learned Perceptual Image Patch Similarity (LPIPS)(Zhang 等,2018b)和 Frechet inception distance (FID)(Heusel 等,2017)这两个指标,用于衡量感知差别和视觉效果。同时,也提供了 PSNR 和 SSIM(Wang 等,2004)来衡量像素/结构相似性。别的,我们还在图像超分辨率、图像修补和去雾任务中对提出的方法进行了定性展示。实验结果表明,我们的方法能很好地推广到差别的图像修复问题,每个任务所需要做的唯一变化就是更换数据集。实现细节请参见附录 D。对于这六个图像修复任务的更多定性结果,可以在附录 E 中找到。
解释:
这段话形貌了实验部门,重要介绍了作者如何评估其 IR-SDE 方法在差别图像修复任务中的表现,并与其他方法进行对比。
- 评估任务:作者选择了三个常见的图像修复任务进行测试:去雨、去含糊和去噪。他们的 IR-SDE 方法将与这些任务中的主流方法进行比较,以检验其效果。
- CNN 基线模型:作为对比,作者使用了一个简朴的 CNN 模型,输入一个低质量图像,输出一个高质量的版本。这个 CNN 与 IR-SDE 使用雷同的网络结构,但通过差别的练习方法来优化。IR-SDE 方法接纳了差别的策略,并且能在多个任务中取得更好的效果。
- 去噪任务:在高斯去噪任务上,作者还提出了一个特别的 SDE(随机微分方程)和 ODE(常微分方程)来进行处理惩罚。
- 指标:为了衡量修复质量,作者使用了几个指标:
- LPIPS 和 FID:这两个指标用来衡量图像的感知质量和视觉效果,重要侧重图像在人眼中的真实感。
- PSNR 和 SSIM:这些是传统的图像质量评估指标,重要衡量像素层面的相似性,PSNR 越高,表示图像越靠近真实,而 SSIM 则衡量结构的相似性。
- 任务泛化:别的,作者还展示了 IR-SDE 在图像超分辨率、图像修补和去雾任务中的应用,表明该方法可以或许很好地适应差别的图像修复问题,只需更换数据集即可。
总体来说,IR-SDE 在多个图像修复任务中表现出了优越性,且可以或许在差别任务中灵活应用。
翻译:
4.1. 图像去雨
我们在两个合成的雨滴数据集上评估了 IR-SDE 方法:Rain100H(Yang 等,2017)和 Rain100L(Yang 等,2017)。前者包含了 1800 对有雨和无雨的图像用于练习,100 对用于测试。后者包含了 200 对用于练习和 100 对用于测试。在这个任务中,我们陈诉了 Y 通道(YCbCr 空间)上的 PSNR 和 SSIM 分数,类似于现有的去雨方法(Ren 等,2019;Zamir 等,2021)。别的,我们将我们的方法与几种开始进的去雨方法进行了比较,如 JORDER(Yang 等,2019)、PReNet(Ren 等,2019)、MPRNet(Zamir 等,2021)和 MAXIM(Tu 等,2022)。需要注意的是,取得某个特定任务的开始进表现并不是本文的重要关注点。与其他扩散方法类似,我们将更多的关注放在感知分数上。
在两个雨滴数据集上的定量比较见于表 1 和表 2。所提出的 IR-SDE 在所有指标上均表现最好。特别是,IR-SDE 在感知分数(LPIPS 和 FID)上显着优于其他方法。基于这些分数以及图 2 中的视觉比较,我们得出结论,IR-SDE 显着产生了最真实和高保真的结果。别的,CNN 基线模型仅优于 JORDER。我们的方法显著进步了其性能而没有改变网络结构,这进一步说明了所提方法的优越性。
表1 在 Rain100H 测试集上,所提出的 IR-SDE 方法与其他图像去雨方法的定量比较:
方法DISTORTIONPERCEPTUALPSNR↑SSIM↑LPIPS↓FID↓JORDER26.250.83490.19794.58PRENET29.460.89900.12852.67MPRNET30.410.89060.15861.59MAXIM30.810.90270.13358.72CNN-BASELINE29.120.88240.15357.55IR-SDE31.650.90410.04718.64 表2 在 Rain100L 测试集上,所提出的 IR-SDE 方法与其他图像去雨方法的定量比较:
方法DISTORTIONPERCEPTUALPSNR↑SSIM↑LPIPS↓FID↓JORDER36.610.97350.02814.66PRENET37.480.97920.02010.98MPRNET36.400.96530.07726.79MAXIM38.060.97700.04819.06CNN-BASELINE33.170.95830.06827.32IR-SDE38.300.98050.0147.94
图 2. 我们的 IR-SDE 方法与其他去雨方法在 Rain100H 数据集上的视觉结果。
翻译:
4.2. 图像去含糊
我们在公共的 GoPro 数据集(Nah 等,2017)上评估了 IR-SDE 的去含糊性能。该数据集包含了 2103 对练习图像和 1111 对测试图像。需要注意的是,GoPro 数据集中的含糊图像是通过将多个清楚图像进行均匀合成,使用高速视频摄像机拍摄的。与通过含糊核天生的其他合成含糊图像相比,GoPro 数据集中的含糊更为真实且更复杂。
表 3 总结了图像去含糊的定量结果。为了进行比较,我们陈诉了四个里程碑式的去含糊方法:DeepDeblur(Nah 等,2017)、DeblurGAN(Kupyn 等,2018)、DeblurGAN-v2(Kupyn 等,2019)、DBGAN(Zhang 等,2020)和 MAXIM(Tu 等,2022)。我们的算法在 PSNR 上比 DeblurGAN-v2 高出 1.15 dB,并在感知效果上表现最佳。这表明,IR-SDE 天生的清楚图像比其他基于 GAN 的方法看起来更真实,并且与真实图像保持一致。别的,我们的方法显著提升了 CNN 基线模型的表现,且没有改变其网络结构,这进一步证明了我们方法的优越性。图 3 的视觉比较展示了我们的方法可以或许处理惩罚复杂的含糊环境,并产生清楚且视觉上令人满意的结果。
解释:
这段话介绍了 IR-SDE 方法在 GoPro 数据集 上进行的 去含糊 实验。GoPro 数据集中的图像含糊来自于将多张清楚图像合成的过程,这比用标准含糊核天生的含糊图像更靠近现实,因此处理惩罚起来更复杂。
文中提到,我们的方法 IR-SDE 比其他去含糊方法,如 DeblurGAN-v2,在 PSNR(峰值信噪比)上高出 1.15 dB,且在视觉效果(感知性能)上表现最好。这意味着 IR-SDE 恢复的图像比其他方法看起来更加真实,而且与原始清楚图像的一致性更好。
另外,尽管 IR-SDE 相较于传统的 CNN 基线模型 提升了性能,但它并没有改变网络架构,这也证明了该方法的优越性。通过图 3 中的视觉对比,我们可以看到,IR-SDE 在面对复杂含糊环境时表现得很好,恢复出的图像既清楚又令人满意。
表 3. 提出了 IR-SDE 方法与其他图像去含糊方法在 GoPro 测试集上的定量比较。
方法失真指标 (DISTORTION)感知指标 (PERCEPTUAL)PSNR↑SSIM↑LPIPS↓FID↓---------------------------------------------------------------------------------------DEEPDEBLUR29.080.91350.13515.14DEBLURGAN28.700.85800.17827.02DEBLURGAN-V229.550.93400.11713.40DBGAN31.180.91640.11212.65MAXIM32.860.94030.08911.57CNN-BASELINE28.870.84690.22523.09IR-SDE30.700.90100.0646.32
图 3. 我们的 IR-SDE 方法与其他去含糊方法在 GoPro 数据集上的视觉结果比较。
翻译:
4.3. 高斯图像去噪
回想一下,SDE 中的 Wiener 过程是一个高斯过程。因此,我们引入了一个去噪 SDE——这是 IR-SDE 在(3)和(7)中的特例——通过设置干净图像为所有时间 t t t的均值 μ = x 0 \mu = x_0 μ=x0,从而可以通过较少的时间步进行去噪盘算。因此,我们可以将任何有噪声的图像视为一个中间状态,并直接将其反向处理惩罚为干净图像。别的,由于干净图像上仅有高斯噪声,推导出一个去噪常微分方程(ODE)是公道的,这个方程具有与 SDE 雷同的边际概率(Song et al., 2021c),但可以实行去噪利用而不会引入来自 Wiener 过程的额外噪声。该去噪 ODE 如下所示:
d x = [ h θ t ( μ − x ) − 1 2 σ t 2 ∇ x log p t ( x ) ] d t dx = \left[ h_{\theta_t} (\mu - x) - \frac{1}{2\sigma_t^2} \nabla_x \log p_t(x) \right] dt dx=[hθt(μ−x)−2σt21∇xlogpt(x)]dt
理论上,我们可以使用(16)来确定性地办理高斯去噪问题。去噪 SDE 和 ODE 之间的重要区别在于随机项(即 Wiener 过程)。在附录 B 中,我们提供了去噪 SDE/ODE 的具体推导,并展示了如何推导出一个得当的去噪步骤以进步样本效率。
为了评估图像去噪性能,我们在从 DIV2K(Agustsson & Timofte, 2017)、Flickr2K(Timofte et al., 2017)、BSD500(Arbelaez et al., 2010)和 Waterloo Exploration 数据集(Ma et al., 2016)收集的 8,294 张高质量图像上练习了我们的模型。然后,我们在 McMaster(Zhang et al., 2011)、Kodak24(Franzen, 1999)和 CBSD68(Martin et al., 2001)数据集上评估所有模型。为了表明我们的方法与开始进的技术保持一致,我们与(Zhang et al., 2017a)和(Zhang et al., 2018a)的方法进行比较,分别称为 DnCNN 和 FFDNet。
三个测试数据集的数值结果如表 4 所示。IR-SDE 具有较高的感知性能,但其保真度得分(即 PSNR 和 SSIM)低于其他基于 CNN 的方法,Denoising-SDE 也是云云。缘故原由可能是扩散过程无法从高斯噪声中识别出来,由于没有随机项的 Denoising-ODE 在所有数据集上的 PSNR 都显著更好。视觉比较见图 4。可以看出,基于 CNN 的方法往往会产生过分平滑的图像。尽管 IR-SDE 和 Denoising-ODE 都天生传神的结果,但 Denoising-ODE 天生的图像噪声较少。我们还将 Denoising-ODE 与近期的扩散方法 DDRM(Kawar et al., 2022)在裁剪图像上的表现进行比较,结果在所有指标上均优于 DDRM,见表 5。
解释:
这一部门介绍了基于 IR-SDE 方法的去噪技术。首先,作者指出,高斯噪声的去噪可以通过引入一个特别的 SDE 进行处理惩罚,其中干净图像在时间 t t t上被认为是均值 μ = x 0 \mu = x_0 μ=x0。这种方法通过较少的时间步骤来去除噪声。然后,提出了一个去噪常微分方程(Denoising-ODE),它不包含随机项,可以或许更有效地去除噪声。作者还在多个数据集上对去噪模型进行了练习和评估,并与现在流行的去噪方法进行比较,得出了自己的方法在感知质量上有较大优势,但在传统的图像质量指标(如PSNR和SSIM)上稍逊一筹。尽管云云,IR-SDE 方法的去噪效果仍然优于 CNN 基线模型,天生的图像看起来更加真实。
表格 4. 在噪声水平 σ = 25 下,针对差别测试集的去噪结果。请注意,IR-SDE 的总步骤为 100,而 Denoising SDE/ODE 只需 22 步即可恢复干净图像。更多细节和结果请参见附录 B 和 E。
表格 5. 我们的方法与 DDRM(Kawar et al., 2022)在高斯图像去噪、超分辨率和人脸修复任务上的比较。我们分别使用 CBSD68、DIV2K 和 CelebA-HQ 数据集进行任务评估。请注意,DDRM 需要已知退化参数,并且这些参数可以通过奇异值分解(SVD)组合。别的,所有图像都颠末中央裁剪,尺寸为 256 × 256。
解释:
这段话讲的是,表格 5 比较了我们的去噪方法与 DDRM(一个已有的去噪方法)在三个任务上的表现:高斯图像去噪、超分辨率(即进步图像分辨率)和人脸修复(即填补损坏的人脸图像)。为了进行这些比较,使用了三个数据集:CBSD68、DIV2K 和 CelebA-HQ。值得注意的是,DDRM 方法在运行时需要已知一些退化的参数,并且这些参数需要通过一种叫做“奇异值分解”(SVD)的方法来处理惩罚。除此之外,所有图像都被裁剪成大小为 256x256 的中央区域。
图 4. 我们的方法与其他去噪方法的视觉结果。IR-SDE 的总时间步数固定为 100,而 Denoising ODE 仅需要 22 步就能恢复干净图像。
图 5. 我们的 IR-SDE 方法与 EDSR 在 DIV2K 验证数据集上进行超分辨率的视觉效果。低质量(LQ)图像通过双三次插值上采样,使其大小与真实图像(GT)雷同。
解释
图 5 展示了 IR-SDE 方法与 EDSR(一个超分辨率算法)联合,在 DIV2K 数据集上进行超分辨率任务的结果。这里的 “低质量图像(LQ)” 通过一种叫做“双三次插值”的方法被放大,目的是让它的尺寸和“真实图像(GT)”一致。这是一个常见的图像处理惩罚本领,用来让低质量图像的尺寸和高质量图像一样,以便进行比较和测试。
翻译:
4.4. 质量实验
在本节中,我们通过在图像超分辨率、修复和去雾任务上的定性实验,进一步展示了我们提出的 IR-SDE 方法的通用性。这些实验的练习设置与前面的部门雷同。对于超分辨率和修复任务,我们还将定量结果与 DDRM (Kawar et al., 2022) 进行比较,以展示我们方法的优越性。
超分辨率
我们首先在单图像超分辨率任务上进行实验,这是盘算机视觉中的一个基础且具有挑战性的任务。我们在 DIV2K (Agustsson & Timofte, 2017) 数据集上练习并评估 IR-SDE。作为额外的预处理惩罚步骤,所有低分辨率图像都通过双三次插值方法被重新调整到与相应高分辨率图像雷同的大小。图 5 展示了在 DIV2K 验证集上的定性结果。与 L2 练习的 EDSR (Lim et al., 2017) 模型相比,我们的 IR-SDE 可以或许恢复出具有丰富细节、视觉清楚且天然真实的图像。我们还在表 5 中提供了与另一种基于扩散的模型 DDRM (Kawar et al., 2022) 的定量比较。
面部修复
修复是将新内容填充到图像的缺失区域的任务。我们选择 CelebA-HQ (Karras et al., 2018) 数据集来练习和测试 IR-SDE 在该任务上的表现。在此任务中,我们设定掩膜区域为未知。修复的区域必须与其他区域协调,以使整体面部在语义上公道,并且表面天然。面部修复的视觉示比方图 7 所示。可以看到,所提出的 IR-SDE 在修复被遮挡区域时展现了强盛的天生能力,同时保持了与原图的一致性。别的,与 DDRM (Kawar et al., 2022) 的定量比较也展示在表 5 中。
去雾
图像去雾通常是提升其他高条理视觉任务鲁棒性的告急条件。需要注意的是,DDRM 要求已知降解参数并且可以通过 SVD 进行分解,因此无法应用于去雾任务。相比之下,我们的方法灵活地可以或许处理惩罚各种任务。我们在 RESIDE (Li et al., 2018) 室内练习集(ITS)上练习 IR-SDE,并在合成目的测试集(SOTS)上进行测试。如图 8 所示,我们的 IR-SDE 成功地从低质量、低对比度的输入中恢复了无雾的室内场景。定量结果见附录 E。
解释:
这段话展示了 IR-SDE 方法在三个任务上的效果:图像超分辨率、面部修复和去雾。
- 超分辨率:这是通过进步低分辨率图像的细节来加强图像质量。IR-SDE 方法在 DIV2K 数据集上表现精彩,可以或许恢复细节丰富且天然的图像。与传统的 EDSR 模型相比,IR-SDE 的效果更佳,可以或许还原更多细节。
- 面部修复:这是对人脸图像中缺失部门进行补充,包管修复后的面部与原图一致且天然。IR-SDE 可以或许在进行修复时,保持面部的天然性和语义公道性。
- 去雾:去雾任务通过去除图像中的雾霾,改善图像质量和清楚度。IR-SDE 在这个任务上表现精彩,可以或许从低质量、含糊的图像中恢复出清楚、无雾的图像,适用于室内场景。
总的来说,IR-SDE 在这三个任务中都展示了强盛的性能,相比于其他方法,尤其是在图像细节恢复和天然天生方面更为优越。
翻译:
5. 讨论与分析
在本节中,我们首先深入分析了 IR-SDE 的反向时间恢复过程,然后具体研究了两个告急组件(最大似然目的和 θ \theta θ 调治)以及方法的局限性。
5.1. 反向时间恢复过程
对于 IR-SDE,终态 x T x_T xT 通常是通过向降质的低质量图像中添加噪声获得的。为了恢复高质量图像,必须徐徐去除降质和噪声。但在反向时间过程中,如那里置惩罚这两种差别的破坏呢?
为了分析这一点,我们提供了几个具体的恢复示例,如图 6 所示。需要注意的是,图 6 的第一行展示了由 Denoising-ODE 进行去噪的环境,其中噪声图像被认为是一个中间状态,唯一的目的是徐徐去除高斯噪声以恢复清楚图像。而对于其他图像恢复任务,我们发现 IR-SDE 更倾向于优先处理惩罚原始降质,并且仅在末了几步才进行高斯去噪。正如图 6 中图像去雨和去含糊的示例所示,大部门降质(雨和含糊)已经在中间时间步中被去除。
别的,我们展示了 IR-SDE(使用余弦调治)在去含糊单张图像时的性能曲线,如图 9 所示。可以看出,去含糊性能(在 PSNR 和 LPIPS 上)在运行了 20 步后徐徐提升,并在末了几步收敛。
5.2. 最大似然目的
与其他直接学习噪声/得分的扩散模型相比,我们 IR-SDE 方法的一个关键改进是基于最大似然目的(公式(15))学习从 x T x_T xT 到 x 0 x_0 x0 的最佳反向时间轨迹。我们在此展示了这一目的如何导致更稳定的练习,从而进步恢复性能,正如图 10 所示。当使用噪声匹配目的进行练习时,去雨和去噪任务中的 PSNR 会颠簸,并且随着时间的推移甚至会恶化。而在去含糊任务中,练习固然仍然有效,但性能显着低于提出的最大似然目的。
5.3. 时间变化的 θ \theta θ 调治
值得注意的是,我们的 IR-SDE 有两个时间变化的参数 θ t \theta_t θt 和 σ t \sigma_t σt,我们通过束缚 θ t \theta_t θt 和 σ t \sigma_t σt 的关系,即 σ t 2 / θ t = 2 λ 2 \sigma_t^2 / \theta_t = 2 \lambda^2 σt2/θt=2λ2,来设定它们,其中 λ \lambda λ 是应用于低质量图像的噪声水平,因此我们可以通过调整 θ \theta θ 来构建差别的噪声调治。正如图 11 所示,我们探索了三种差别的 θ \theta θ 调治方法:常数、线性和余弦(详情见附录 D)。当 θ \theta θ 为常数时,IR-SDE 简化为 Ornstein–Uhlenbeck (OU) 过程(Gillespie, 1996),这一过程广泛用于办理均值回归问题。线性/余弦调治在现有的扩散概率模型中也得到了广泛应用(Ho et al., 2020;Nichol & Dhariwal, 2021)。我们为 θ t \theta_t θt 使用了它们的翻转版本,使得扩散系数 σ t \sigma_t σt 平滑地变化至最大值,当 t → ∞ t \to \infty t→∞ 时。观察到所有调治方法在去雨任务中都表现良好,其中余弦调治的表现显着优于其他方法。
5.4. 局限性与将来工作
我们已经展示了 IR-SDE 方法在各种图像恢复任务上的有效性。然而,也需要承认一个潜在的局限性:公式(6)中指数项导致末了几步的方差变化过于平滑(见图 12)。在这一区域,相邻状态( x i , x i − 1 x_i, x_{i-1} xi,xi−1)的表面非常相似,这使得学习变得困难,特别是当使用最大似然丧失(优化状态间的差别)时。在将来的工作中,我们将探索替代的 θ \theta θ 调治方法,以缓解这一问题。
别的,值得注意的是,我们可以通过使用 Tweedie 公式(参见 Kim & Ye, 2021,表 1 和 Kim et al., 2022)来推广 SDE 的选择,从而推广条件得分。比方,如果我们选择 SDE 为多少布朗运动,则公式(8)中的得分对应于指数分布的得分。
解释:
- 反向时间恢复过程:IR-SDE 的恢复过程涉及从降质的低质量图像中恢复出高质量图像。最开始图像含有噪声和降质,我们通过反向时间步骤徐徐去除这些破坏。在去噪任务中,IR-SDE 重要先去除图像中的降质(如雨水和含糊),末了几步才进行噪声去除。通过图 6 和图 9 的例子,展示了这个过程如何在去含糊任务中起作用。
- 最大似然目的:IR-SDE 在练习时使用了最大似然目的,这让练习更加稳定,并进步了恢复性能。与仅匹配噪声的其他方法相比,IR-SDE 在去雨和去噪任务中表现出更好的性能。
- 时间变化的 θ \theta θ 调治:IR-SDE 有两个时间变化的参数, θ t \theta_t θt 和 σ t \sigma_t σt,它们影响噪声的变化。通过调整这些参数的调治(如常数、线性和余弦调治),我们可以改变噪声的变化方式。在去雨任务中,所有这些调治都表现良好,余弦调治则表现最佳。
- 局限性与将来工作:尽管 IR-SDE 展示了强盛的性能,但末了几步的恢复过程可能出现问题,由于相邻的图像状态太相似,导致学习变得困难。将来的工作将通过调整调治方式来办理这一问题。同时,还可以通过使用差别的 SDE 选择来推广该方法,进一步进步其适应性。
6. Related Work
图像修复是盘算机视觉中的一个生动研究领域(Zhang & Zuo, 2017;Zhang et al., 2017b;Wang et al., 2022;Xiao et al., 2022)。最常见的方法是练习某种深度学习模型,以监视方式办理图像修复任务(Zamir et al., 2021)。已经提出了各种基于卷积神经网络(CNN)的架构(Zamir et al., 2021;Chen et al., 2022),最近也有大量的研究探索了使用变压器(Transformers)(Liang et al., 2021;Zamir et al., 2022;Luo et al., 2022b)。这些方法都涉及到练习一个神经网络,从给定的低质量图像直接预测高质量图像。相比之下,我们提出的 IR-SDE 方法是通过模仿反向时间的 SDE(7)徐徐恢复给定的低质量图像。尽管这样会增加盘算成本,但它也可以或许更精确地恢复真实的图像。最近,Refusion(Luo et al., 2023)在 IR-SDE 的基础上引入了基于 U-Net 的潜在框架,以加快推理过程。
与 IR-SDE 最相似的是 Welker 等人(2022b)和 Richter 等人(2022)的工作,他们在语音加强和语音去混响的语音处理惩罚任务中应用了均值回归 SDE。他们使用的是类似于(3)的均值回归 SDE,但其使用差别的 σ t \sigma_t σt 和常数的 θ \theta θ,即标准的 OU 过程。别的,他们没有设置静态方差条件。在 Welker 等人(2022a)的另一篇并行工作中,他们将这一思路扩展到 JPEG 压缩伪影去除问题,并引入了带线性 θ \theta θ 调治的版本。正如在第 5.3 节所展示的,这些方法在性能上不如我们使用的余弦 θ \theta θ 调治方法。别的,Welker 等人(2022b)、Richter 等人(2022)、Welker 等人(2022a)都使用了标准的分数匹配目的,而我们提出了基于最大似然的丧失函数,这使得练习更加稳定,并进步了修复性能。末了,我们通过将该方法应用于六个差别的图像修复任务,展示了我们方法的广泛适用性和竞争力的修复性能。
7. Conclusion
我们提出了一种基于均值回归 SDE 的方法,适用于多种图像修复任务。告急的是,我们的 SDE 具有闭式解,这使得我们可以或许盘算真实的时间依赖的分数函数,并练习一个神经网络来估计它。别的,我们提出了一个基于最大似然的丧失目的,这大大稳定了神经网络的练习,并连续进步了修复性能。在六个差别的图像修复任务中的实验结果证明了我们提出的方法具有广泛的适用性,并在修复性能上具备很强的竞争力。将来的方向包罗探索优化 θ \theta θ 调治和采样过程的技术,以减少测试时的盘算成本。
Acknowledgements
这项研究得到了 Wallenberg AI、主动体系和软件项目(WASP)的资助,该项目由 Knut 和 Alice Wallenberg 基金会资助;由瑞典研究委员会资助的“深度概率回归——新模型和学习算法”(条约编号:2021-04301)项目;以及 Kjell 和 M ̈arta Beijer 基金会的资助支持。盘算工作得到了由 Knut 和 Alice Wallenberg 基金会提供的 Berzelius 资源,支持来自国家超级盘算中央。我们还感谢 Daniel Gedon 提供的宝贵反馈。
解释:
这段话报告了与 IR-SDE 方法相关的研究进展和与其他方法的比较:
- 图像修复的传统方法:过去,很多图像修复的方法依赖于深度学习模型,尤其是卷积神经网络(CNN)和变压器(Transformers)。这些方法通过直接从低质量图像天生高质量图像来办理问题。
- IR-SDE 的独特之处:IR-SDE 方法通过模仿一个特别的数学过程(反向时间的 SDE)徐徐恢复低质量图像,固然这样会消耗更多盘算资源,但可以或许实现更精确的修复。
- 与其他方法的比较:与 IR-SDE 方法最相似的工作是 Welker 和 Richter 等人的研究,他们使用了类似的数学模型来处理惩罚语音修复问题。差别的是,IR-SDE 使用了更加精致的调治方法(余弦调治),并且引入了最大似然的练习目的,使得练习更稳定,修复效果更好。
- 将来工作方向:该方法将来还可以在多个方向进行改进,特别是如何优化调治和减少盘算开销。
总结:这项研究展示了 IR-SDE 在图像修复领域的强盛能力,并且通过与其他现有方法的对比,证明了其在性能和修复质量方面的优势。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |