30、论文阅读:基于小波的傅里叶信息交互与频率扩散调解的水下图像恢复
择要水下图像受到复杂多样的退化,不可制止地影响水下视觉任务的有效性。然而,大多数方法重要是在图像的原始像素空间中运行,这限定了对水下图像频率特性的探索,导致深度模型在产生高质量图像时没有充实利用其表征能力。在本文中,我们先容了一种新的水下图像增强(UIE)框架,定名为WF-Diff,旨在充实利用频域信息和扩散模型的特性。WF-Diff由两个可分离的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调解模块(FR-DAM)。通过对频域信息的充实探索,WFI2-net旨在初步实现小波空间中频率信息的增强。我们提出的FRDAM可以进一步细化初始增强图像的高频和低频信息,可以将其视为一个即插即用的通用模块,用于调解水下图像的细节。通过上述技术,我们的算法可以在真实的水下图像数据集上体现SOTA性能,并在视觉质量上达到具有竞争力的性能。代码可https://github.com/zhihefang/WF-Diff上得到。
先容
水下图像修复是水下视觉范畴中的一项实际而具有挑衅性的技术,广泛应用于水下机器人和水下物体追踪等任务。由于水了局景中的光线折射、吸收和散射,水下图像通常受到严重的失真,体现为低对比度和模糊。因此,清楚的水下图像在需要与水下环境互动的范畴中起着至关重要的作用。水下图像增强(UIE)的重要目标是通已往除散射和校正退化图像中的颜色失真,从而得到高质量的图像。UIE对于与视觉相干的水下任务至关重要。
为了应对这一题目,基于水下图像物理特性的传统UIE方法被提出。这些方法研究了由颜色弊端或散射引起的退化的物理机制,并通过补偿这些因向来增强水下图像。然而,这些基于物理学的模型由于表征能力有限,无法处理水了局景中全部复杂的物理和光学因素,从而导致在高度复杂和多样的水了局景中增强结果较差。近年来,一些基于学习的方法因其神经网络强大的特征表示和非线性映射能力,可以或许产生更好的结果。这些方法可以通过大量的配对训练数据学习图像从退化到清楚的映射。然而,大多数之前的方法都是基于图像的原始像素空间,未能充实探索水下图像在频率空间中的特性,这导致无法有效地利用深度模型的表示能力来生成高质量的图像。
https://i-blog.csdnimg.cn/direct/8e3c6d1f55044516a743e87e419ba741.png
【图1. 我们的动机。幅度和相位是通过快速傅里叶变更(FFT)得到的,重新组合的图像是通过逆傅里叶变更(IFFT)得到的。我们进一步探索了水下图像在小波空间中的频率特性。】
基于之前傅里叶方法的启示,我们探索了傅里叶频率信息在UIE任务中的特性,如图1所示。给定两张图像(一个水下图像及其对应的地面真值图像),我们交换它们的幅度分量,并将其与对应的相位分量在傅里叶空间中联合。重新组合的结果表明,视觉结果随着幅度交换而发生变化,这表明水下图像的退化信息重要包含在幅度分量中。我们进一步探索了幅度分量在小波空间中的特性。具体来说,图像可以通过离散小波变更(DWT)分解为低频子图像和高频子图像,然后我们交换低频子图像的幅度分量。从视觉结果来看,我们发现了雷同的征象,这意味着颜色退化信息重要包含在低频子图像中,而纹理和细节退化信息重要包含在高频子图像中。表1展示了差别频域策略的定量评估,证明了我们的发现是客观的。因此,如何充实利用频域信息的特性,并将其有效地融入到一个统一的图像增强网络中,是一个关键题目。
近年来,基于扩散的方法因其在图像合成和修复任务中的优异体现而受到广泛关注。这些方法依靠于分层去噪自编码器架构,使得它们可以或许迭代地逆转扩散过程,从随机采样的高斯噪声生成目标图像或潜伏分布,并实现高质量的映射。Tang等人提出了一种用于水了局景的扩散模型图像增强方法。只管标准扩散模型体现出足够的能力,但由于从随机生成的高斯噪声到图像的采样过程中引入的多样性,可能会出现一些预料之外的伪影。别的,扩散模型需要同时恢复图像的高频和低频信息,这限定了它们对细粒度信息的关注,导致错过了纹理和细节。因此,充实利用扩散模型强大的表示能力变得尤为关键。
在本文中,我们开发了一种新的水下图像增强(UIE)框架,充实利用频域信息和扩散模型的特性,定名为 WF-Diff,该框架重要由两个阶段组成:频率初步增强和频率扩散调解。第一个阶段旨在利用频域特性,初步增强水下图像的高频和低频分量。具体来说,我们首先通过离散小波变更(DWT)将输入图像转换到小波空间,得到一个代表输入图像低频内容信息的均匀系数,以及三个代表输入图像希罕的垂直、程度和对角线细节的高频系数。然后,我们计划了一个基于小波的傅里叶信息交互网络(WFI2-net),充实融合了Transformer 和傅里叶先验信息的特性,分别增强高频和低频内容。别的,为了实现高频和低频信息的交互,我们提出了一个跨频条件器(CFC),进一步进步生成质量。第二阶段的目标是通过扩散模型对初步增强的大略结果在细节和纹理上举行调解。因此,我们提出了一个频率残差扩散调解模块(FRDAM)。与之前的基于扩散的工作差别,FRDAM通过在小波空间中使用两个扩散模型,学习地面真值和初步增强结果之间的高频和低频信息残差分布,既能增强模型对细粒度信息的关注,又能减轻采样过程中多样性带来的不良影响。
总之,我们方法的重要贡献如下:
[*]我们深入探索了水下图像在频域中的特性。基于这些特性和扩散模型,我们提出了一个新的UIE框架——WF-Diff,旨在实现频率增强和扩散调解。
[*]我们提出了一个频率残差扩散调解模块(FRDAM),进一步优化初步增强图像的高频和低频信息。FRDAM可以视为一个即插即用的通用模块,用于调解水下图像的细节。
[*]我们提出了一个跨频条件器(CFC),以实现高频和低频信息的跨频交互。
[*]与现有的开始辈方法(SOTA)相比,实行结果明显表明,我们提出的WF-Diff在性能上优于之前的UIE方法,并且通过广泛的消融实行验证了我们贡献的有效性。
相干工作
水下图像增强
现在,现有的水下图像去雾(UID)方法可以扼要地分为物理模型和深度模型两种方法。大多数基于物理模型的UID方法利用先验知识来建立模型,如水下暗通道先验、衰减曲线先验、模糊先验等。别的,Akkaynak和Treibitz提出了一种基于修订物理成像模型的方法。然而,水了局景的深度图难以获取,这导致了不稳定的性能,通常受到严重的颜色弊端和伪影的影响。因此,手动建立的先验模型限定了模型在复杂多变的环境下的鲁棒性和可扩展性。
近年来,基于深度学习的方法已取得了较为可接受的性能。为了缓解对真实水下配对训练数据的需求,许多方法引入了基于GAN的框架举行水下图像增强(UIE),例如WaterGAN 、UGAN 和UIE-DAL 。最近,一些复杂的框架被提出并取得了开始辈的性能。例如,Ucolor联合了水下物理成像模型,并计划了一个中介传输引导模型。Yang等人提出了一种反射光感知的多标准渐进修复网络,用于在各种水了局景中得到颜色平衡和丰富纹理的图像。Huang等人提出了一种基于均值教师的半监视网络,可以或许有效地利用未标注数据中的知识。然而,大多数之前的方法都是基于空间域,未能充实探索水下图像的频率空间,这导致无法有效地利用深度模型的表示能力。
扩散模型
最近,扩散概率模型(DPMs)已广泛应用于条件图像生成。Saharia等人提出了Palette,展示了扩散模型在条件图像生成范畴(包罗上色、图像修补和JPEG修复)中的优异性能。Tang等人提出了一种基于扩散模型的水下图像增强方法。然而,扩散模型的反向过程从随机采样的高斯噪声开始,生成完整的图像,由于采样过程的多样性,这可能导致不测的伪影。别的,扩散模型需要恢复图像中的高频和低频信息,这限定了其在关注细粒度信息方面的能力。因此,如何将扩散模型融入一个统一的水下图像增强网络是一个至关重要的题目。
论文方法
https://i-blog.csdnimg.cn/direct/7008052ac12b49f2a2b481a02285f717.png
团体架构
给定一张水下图像作为输入,我们的目标是学习一个网络,生成一个输出,去除输入图像的颜色弊端,同时增强图像的细节。WF-Diff的团体框架如图2所示。WF-Diff旨在充实利用频域信息的特性和扩散模型的强大能力。具体来说,WF-Diff由两个可拆卸的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调解模块(FRDAM)。我们首先通过离散小波变更(DWT)将输入图像转换到小波空间,得到一个低频系数和三个高频系数。WFI2-net致力于实现频率信息的初步增强。我们充实整合Transformer和傅里叶先验信息的特性,计划了宽Transformer块(WTB)和空间-频率融合块(SFFB),分别增强高频和低频内容。FRDAM由低频扩散分支(LDFB)和高频扩散分支(HDFB)组成,旨在进一步调解初步增强图像的高频和低频信息。需要注意的是,我们提出的FRDAM通过使用两个扩散模型分别学习地面真值和初步增强结果之间的高频和低频信息的残差分布。别的,所提出的跨频条件器(CFC)旨在实现高频和低频信息之间的跨频交互。
离散小波变更与傅里叶变更
离散小波变更(DWT)已广泛应用于低层视觉任务。我们首先使用DWT将输入图像分解为多个频率子带,以便分别实现低频信息的颜色校正和高频信息的细节增强。给定一张水下图像作为输入https://i-blog.csdnimg.cn/direct/930dfdbff95f4e858ccc386c8fa9c0b4.png
,我们使用Haar小波对输入举行分解。Haar小波由低通滤波器 L 和高通滤波器 H 组成,如下所示:
https://i-blog.csdnimg.cn/direct/ac4cb079bc3e4bc78ece11fd9686e94d.png
我们可以得到四个子带,其可以表示为:
https://i-blog.csdnimg.cn/direct/e2524ec753374a1f9e913679f5bcb981.png
其中,https://i-blog.csdnimg.cn/direct/c54486d5c8bd4361ac3efcd4918a6634.png
分别表示输入图像的低频分量和垂直、程度、对角方向的高频分量。更具体地说,低频分量包含了输入图像的内容和颜色信息,而其他三个高频系数则包含了全局结构和纹理的细节信息。这些子带的分辨率是输入图像的一半,但由于DWT的双正交性质,它们不会导致信息丢失。对于低频分量 ILL,我们将在傅里叶空间中进一步探究其特性。
接着,我们引入傅里叶变更的操纵。给定一个图像 https://i-blog.csdnimg.cn/direct/a5829bf25f664fb1957fd8ced20fcb03.png
,其形状为 H x W,傅里叶变更 F 将 x 转换到傅里叶空间 X ,其表达式为:
https://i-blog.csdnimg.cn/direct/0cffa1b69b6848e28daede8afe087378.png
https://i-blog.csdnimg.cn/direct/11d3bc97440f4ee68519ee0d359ca0bc.png
https://i-blog.csdnimg.cn/direct/b9e5a15436104572a79b561d7cc22fa5.png
其中, R(x) 和 I(x) 分别表示 X(u, v) 的实部和虚部。需要注意的是,傅里叶操纵可以在每个通道的特征图上独立盘算。根据图1和表1(我们的动机),我们得出结论:水下图像的颜色退化信息重要包含在低频子带的幅度分量中,而纹理和细节退化信息则重要包含在高频子带中。
频率初步增强
基于上述分析,在频率初步增强阶段,我们计划了一个简单但有效的WFI2-net,采取并行的编码器-解码器(雷同U-Net)的结构,分别恢复低频信息的幅度分量和高频分量。我们还利用跳跃连接将编码器息争码器中相同条理的特征连接起来。对于高频分支,我们利用变压器(Transformer)建模全局信息的上风来增强高频系数。我们计划了宽变压器块(WTB),使用多标准信息,旨在建模长距离依靠关系。我们的低频分支旨在恢复傅里叶空间中的幅度分量。为了得到丰富的频率和空间信息,我们计划了空间-频率融合块(SFFB)。
https://i-blog.csdnimg.cn/direct/5cf03ab292b24605a7ce34bff2e5eb3b.png
Wide Transformer Block
https://i-blog.csdnimg.cn/direct/14681fa9ea164104a6a06d4a47e24fd9.png
https://i-blog.csdnimg.cn/direct/87f5d46d2d554d98868d3a28473ffc4f.png
https://i-blog.csdnimg.cn/direct/6cd11bf4df2d4dc5bd8afaf4ede49521.png
Spatial-Frequency Fusion Block
https://i-blog.csdnimg.cn/direct/60ae3bd97bcc48f9b9325e566e1ff041.png
https://i-blog.csdnimg.cn/direct/ac29c543dd1345419fd2e9020a48dc12.png
丧失函数
https://i-blog.csdnimg.cn/direct/c4455832ca014a38babf47018b244085.png
https://i-blog.csdnimg.cn/direct/10217dc18e5649de9928174b82e0bab3.png
https://i-blog.csdnimg.cn/direct/b491fd1dbadd4e36baaff9cb234cef95.png
https://i-blog.csdnimg.cn/direct/80dcd1fea3a6420fb0a8f2d16e68c83d.png
https://i-blog.csdnimg.cn/direct/bd7fde85b9e94e6ca7e45c5a398074d1.png
Cross-Frequency Conditioner
https://i-blog.csdnimg.cn/direct/285e66c1e07d4eb3a9c8b88efb9dcd34.png
https://i-blog.csdnimg.cn/direct/ac271728ef574438a9b830e79219896a.png
雷同地,可以得到高频嵌入的VT和低频嵌入的VF:
https://i-blog.csdnimg.cn/direct/a7b20575d07c4955bbb1ecee37001b4c.png
输出特征图Tout和Fout然后可以从以下公式得到:
https://i-blog.csdnimg.cn/direct/3bfcfba10e614ec1ab7d5b6565ffa1c1.png
其中R表示复制操纵,√ dk是矩阵Q的列数。
Frequency Diffusion Adjustment
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]