我们提出了SEAL(Systematic Evaluation of Real-World Super-Resolution)框架来办理上述挑衅。通过退化聚类表征技能,SEAL能够将复杂的退化空间举行稀疏化,形成具有代表性的退化使命,为Real-SR方法的大尺度体系性评估提供了新的办理路径。
如下图所示,我们提出的评估框架包罗基于聚类的退化空间表现方法和一套基于代表性退化使命的体系性评价指标。具体来说,我们将退化空间分别为 K 类,并利用类中心的退化参数创构建了K 个退化使命数据集。为了对大尺度的测试集上的性能提供参考,我们采用了经典的real-SR模子和 SOTA 的 real-SR模子作为及格线(Acceptance Line)和良好线(Excellence Line)。待测试的真实 SR 模子在 K 个测试数据集上的分布式性能将与及格线和良好线举行比力,并通过一系列指标举行评估,包罗 AR(及格率)、RPR(相对性能比)、RPR_A(可接受退化使命的平均 RPR)和 RPR_U(不可接受退化使命的平均 RPR)。
退化空间的生成(Generating the degradation space)在真实场景超分的研究中,现有的工作一样平常采用多个退化的组合来模拟真实场景退化过程[1][2],因此,退化空间对高分辨率图像(HR)的作用过程可以表现为:
假设有 s 种退化类型(如模糊、重采样、噪声和压缩),每种类型包罗 个离散的退化级别。总退化使命的个数应为。如果 , ,那么退化空间中包罗的使命将达到,这已经是一个天文数字了。显然,从云云巨大的空间中随机抽取有限数量的退化来构建一个只包罗 100 张图像的测试集并不能充分代表整个空间,这将不可克制地导致不同等和埋伏误导性的效果。 退化空间的表现(Representing the degradation space)为了表现退化空间 D,一种直接的方法是按退化参数分别空间,这种方式听起来似乎是合理的。然而,我们发现不同退化类型的组合大概具有相似的视觉效果和复原难度。如下图所示,经过不同退化的图像具有相似的外观。这表明利用图像的特征而不是退化参数来区分退化图像大概更为合理。
为了有效的表现大退化空间,我们采用了谱聚类方法来对退化图像的直方图特征举行聚类,进而将类中心作为大退化空间下的代表性退化使命。可以得到如下的代表性退化使命集。 大尺度体系性测试集(Large-scale systematic test sets)我们利用聚类中心的退化参数构建了一组用于体系评估测试集(SE test set): 分布式绝对性能(Distributed Absolute Performance)为了全面体系地展示real-SR 模子在上的性能,最直接的方式是对 real-SR 模子计算其在上的分布式绝对性能。 分布式相对性能(Distributed Relative Performance)为了全面体系地展示real-SR 模子在上的性能,我们提出了一组新的评价指标来展示 real-SR的不同特性。 及格线和良好线(Ac. and ex. line)我们提出了两条参考线来为模子的评价提供基准,这两条参考线为不同的超分模子在上的测试性能。 及格率(Acceptance rate)(AR) 衡量实际 SR 模子所有 K 个代表性退化使命中可接受案例的百分比。可接受案例是指实际 SR 模子的性能超过接受线的退化使命。 相对性能比 (Relative Performance Ratio)(RPR) 用于比力同一尺度下real-SR 模子在及格线和良好线的相对性能提升。 RPR四分位(Interquartile range of RPR)采用了第 75% 和 25% 位置的RPR分数的差来表现,反映了real-SR 模子在整个测试集上的性能提升的变化范围。 及格使命的RPR分数(Average RPR on acceptable cases )计算了及格使命的的 RPR 分数的平均值: 不及格使命的RPR分数(Average RPR on unacceptable cases )计算不及格使命的的 RPR 分数的平均值: 可定制化的由粗到细的评估流程。根据所提出的指标,我们制定了一个从粗到细的评估协议,对不同的real-SR 模子举行对比。如图所示,模子按优先级次序依次通过建议的指标举行比力。AR 代表粗粒度比力,而 RPR 则提供细粒度比力。如果它们的性能与当前指标过于接近,则利用下一个指标对它们举行排序。由于每个指标具有不同的寄义,这个流程可以根据用户的偏好来自由的定制。
实验效果 MSE-based实验效果
实验效果的图 4 中展示了分布式性能对比,这可以给用户提供大退化空间下多个单退化使命的性能对比。通过我们提出的体系性评测指标,表格 1 也提供了综合性排名,当 AR 大于 0.25 时,我们继承采用 RPR 举行排名。我们发现大部门的方法的 AR 分数都低于 0.5,这意味着都没有超过及格线(FSRCNN),这意味着大部门的 real-SR网络在超过一半的退化使命上比一个小网络 FSRCNN 还差。此外,相比于PSNR 的平均值,我们的 SEAL 评估框架可以提供更体系性、全面性的对比。雷同的征象在如下的 GAN-based效果上也可以观测到。 GAN-based实验效果
总结
在这项工作中,我们开发了一种新的评估框架,用于公平、全面地评估real-SR 模子。我们起首利用基于聚类的方法来模拟一个大的退化空间,并设计了两个新的评估指标--AR 和 RPR,用于对 real-SR模子在代表性的退化使命上的评估。然后,我们用提出的评估流程对现有的real-SR 方法举行基准测试,并展示了新的观察效果。最后,我们对退化聚类举行了广泛的对比研究。通过大量的实验和分析,我们证实白 SEAL 的有效性和通用性。 SEAL可以做什么
SEAL 提供了大退化空间下性能观测的一个工具。我们可以利用 SEAL 去观测新的模子设计对整个退化空间上不同使命带来的影响,进一步发现更多的 insights,作为新研究的 motivation。此外,SEAL也可以作为全方位对比工具,对设计好的模子和现有模子性能举行对比,以展示新设计模子的特性。
如果这个工作可以给你带来一点帮助,欢迎各人star我们的开源仓库(https://github.com/XPixelGroup/SEAL)。我们会在近期更新出下一版本的 SEAL benchmark 效果,进一步改进了退化空间表现的方法,构建了新的轻量又具有多样性的 Seal100测试集,提供了 Diffusion-based real-SR测试效果,敬请各人关注!也欢迎接洽(wenlong.zhang@connect.polyu.hk)举行进一步的讨论和合作。
参考文献
[1]. Zhang K, Liang J, Van Gool L, et al. Designing a practical degradation model for deep blind image super-resolution[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 4791-4800.
[2]. Wang X, Xie L, Dong C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1905-1914.
[3]. Zhang W, Li X, Shi G, et al. Real-world image super-resolution as multi-task learning[J]. Advances in Neural Information Processing Systems, 2024, 36.