ToB企服应用市场:ToB评测及商务社交产业平台

标题: ICLR 2024 Spotlight|SEAL:面向真实场景超分辨率的体系性评估框架 [打印本页]

作者: 西河刘卡车医    时间: 2024-10-12 17:49
标题: ICLR 2024 Spotlight|SEAL:面向真实场景超分辨率的体系性评估框架

研究背景 

现实世界图像超分辨率(Real-World Super-Resolution, Real-SR)技能,作为提升图像清晰度的关键技能,正变得越来越重要。然而,如何正确评估Real-SR方法的性能,一直是该领域的一大挑衅。目前的评估方式往往通过从一个大退化空间中随机选取的一小组退化来构建测试集,并计算出小测试集上的平均性能来对模子举行评估,如许的方式往往无法全面相识 real-SR模子的整体性能,还大概会产生不同等且具有误导性的效果。为相识决这个题目,我们提出了SEAL--一个real-SR体系评估框架。
SEAL通过对退化空间举行聚类,找到了一组具有代表性的退化样本,用于构建大尺度测试集。进一步,SEAL提出了一个从粗到细(coarse-to-fine)的评估协议,以衡量真实SR方法在测试集上的分布和相对性能。该协议包罗两个新的体系性评估指标:接受率(AR)和相对性能比(RPR)。在SEAL的评估下,我们对现有的real-SR方法举行了基准测试,获得了体系性的对比效果和新的观测征象。
本文获得了 ICLR 2024 Spotlight, 点击底部“阅读原文”即可获取论文全文!
回首真实超分辨率模子的评估战略 

为了评估Real-SR 方法的性能,现有的工作直接根据 IQA 指标(如 PSNR)计算随机抽样的小尺寸测试集上的平均性能[1][2]。然而,我们发现这种评估方案存在很严重的缺陷。由于退化空间的广阔性,随机选择的小测试集无法可靠地表现退化空间,大概会导致评估效果出现严重偏差和随机性。此外,目前的评估战略不足以全面的 real-SR 方法在整个退化空间中的泛化性,由于它们通常是对所有测试样本的量化效果举行平均,而无法判断在哪些退化使命上取得了好的性能。


如图 1 (b)所示,一种方法大概在 60% 的退化类型上优于另一种方法,但它在一个小的测试会合大概无法获得更高的平均 PSNR 值。平均分不能充分体现整体性能和分布。此外,如果我们的目标是提高平均分数,那么我们可以只专注于提高简单的退化使命(如小噪声或模糊)的性能,但这会对困难的退化使命产生倒霉影响。这将违背我们的重要目标。相反,一旦我们在简单的情况下取得了令人满意的效果,我们就应该把重点转向具有挑衅性的情况,以提高整体性能[3]。综上,我们需要一个能够全面评估真实 SR 方法性能的新框架。 
通过以上分析,我们发现当前的真实超分辨率模子评估面临着如下挑衅: 
(1)由于退化空间包罗海量的退化使命,如何评估它们的整体性能?直接对所有退化举行测试显然是不可行的,如何选择代表性的退化使命,进而构建大尺度的测试集? 
(2)在大尺度的测试集上,传统的利用均值来代表模子的性能难以反映模子的整体性能,如何设计新的指标来反映模子在大尺度测试集上的综合性能?
SEAL:一个大尺度体系性评估框架 

我们提出了SEAL(Systematic Evaluation of Real-World Super-Resolution)框架来办理上述挑衅。通过退化聚类表征技能,SEAL能够将复杂的退化空间举行稀疏化,形成具有代表性的退化使命,为Real-SR方法的大尺度体系性评估提供了新的办理路径。 
如下图所示,我们提出的评估框架包罗基于聚类的退化空间表现方法和一套基于代表性退化使命的体系性评价指标。具体来说,我们将退化空间分别为 K 类,并利用类中心的退化参数创构建了K 个退化使命数据集。为了对大尺度的测试集上的性能提供参考,我们采用了经典的real-SR模子和 SOTA 的 real-SR模子作为及格线(Acceptance Line)和良好线(Excellence Line)。待测试的真实 SR 模子在 K 个测试数据集上的分布式性能将与及格线和良好线举行比力,并通过一系列指标举行评估,包罗 AR(及格率)、RPR(相对性能比)、RPR_A(可接受退化使命的平均 RPR)和 RPR_U(不可接受退化使命的平均 RPR)。


退化空间的生成(Generating the degradation space)在真实场景超分的研究中,现有的工作一样平常采用多个退化的组合来模拟真实场景退化过程[1][2],因此,退化空间对高分辨率图像(HR)的作用过程可以表现为:

假设有 s 种退化类型(如模糊、重采样、噪声和压缩),每种类型包罗  个离散的退化级别。总退化使命的个数应为。如果 , ,那么退化空间中包罗的使命将达到,这已经是一个天文数字了。显然,从云云巨大的空间中随机抽取有限数量的退化来构建一个只包罗 100 张图像的测试集并不能充分代表整个空间,这将不可克制地导致不同等和埋伏误导性的效果。 
退化空间的表现(Representing the degradation space)为了表现退化空间 D,一种直接的方法是按退化参数分别空间,这种方式听起来似乎是合理的。然而,我们发现不同退化类型的组合大概具有相似的视觉效果和复原难度。如下图所示,经过不同退化的图像具有相似的外观。这表明利用图像的特征而不是退化参数来区分退化图像大概更为合理。


为了有效的表现大退化空间,我们采用了谱聚类方法来对退化图像的直方图特征举行聚类,进而将类中心作为大退化空间下的代表性退化使命。可以得到如下的代表性退化使命集。
大尺度体系性测试集(Large-scale systematic test sets)我们利用聚类中心的退化参数构建了一组用于体系评估测试集(SE test set):
分布式绝对性能(Distributed Absolute Performance)为了全面体系地展示real-SR 模子在上的性能,最直接的方式是对 real-SR 模子计算其在上的分布式绝对性能。
分布式相对性能(Distributed Relative Performance)为了全面体系地展示real-SR 模子在上的性能,我们提出了一组新的评价指标来展示 real-SR的不同特性。 
及格线和良好线(Ac. and ex. line)我们提出了两条参考线来为模子的评价提供基准,这两条参考线为不同的超分模子在上的测试性能。
及格率(Acceptance rate)(AR) 衡量实际 SR 模子所有 K 个代表性退化使命中可接受案例的百分比。可接受案例是指实际 SR 模子的性能超过接受线的退化使命。
相对性能比 (Relative Performance Ratio)(RPR) 用于比力同一尺度下real-SR 模子在及格线和良好线的相对性能提升。
RPR四分位(Interquartile range of RPR)采用了第 75% 和 25% 位置的RPR分数的差来表现,反映了real-SR 模子在整个测试集上的性能提升的变化范围。
及格使命的RPR分数(Average RPR on acceptable cases )计算了及格使命的的 RPR 分数的平均值:
不及格使命的RPR分数(Average RPR on unacceptable cases )计算不及格使命的的 RPR 分数的平均值:
可定制化的由粗到细的评估流程。根据所提出的指标,我们制定了一个从粗到细的评估协议,对不同的real-SR 模子举行对比。如图所示,模子按优先级次序依次通过建议的指标举行比力。AR 代表粗粒度比力,而 RPR 则提供细粒度比力。如果它们的性能与当前指标过于接近,则利用下一个指标对它们举行排序。由于每个指标具有不同的寄义,这个流程可以根据用户的偏好来自由的定制。


实验效果 
MSE-based实验效果




实验效果的图 4 中展示了分布式性能对比,这可以给用户提供大退化空间下多个单退化使命的性能对比。通过我们提出的体系性评测指标,表格 1 也提供了综合性排名,当 AR 大于 0.25 时,我们继承采用 RPR 举行排名。我们发现大部门的方法的 AR 分数都低于 0.5,这意味着都没有超过及格线(FSRCNN),这意味着大部门的 real-SR网络在超过一半的退化使命上比一个小网络 FSRCNN 还差。此外,相比于PSNR 的平均值,我们的 SEAL 评估框架可以提供更体系性、全面性的对比。雷同的征象在如下的 GAN-based效果上也可以观测到。 
GAN-based实验效果


在 Tab.1和 Tab.2中,由于AR 较低,我们在排名中排除了real-SR 模子中AR低于 0.25 的模子。对于real-SR 模子中  的模子,将根据 {, , , } 举行逐步排序,阈值分别为 {0.02, 0.02, 0.05, 0.05} 。如果当前指标的差值超过了阈值,则利用该指标代表整体排名。否则,将考虑下一个指标。从我们提出的 SEAL 评估中,我们可以得出以下几点结论:
(1) 现有的一些方法在大多数降解情况下都失败了。如表1和表2所示,一些现有方法的  值低于 0.5。例如,在大多数降解情况下,大多数基于 MSE 的真实 SR 模子甚至无法超越小型网络(即 FSRCNN-mz)。
(2) 我们的 SEAL 能够从多个维度对现有方法举行排序,如鲁棒性(  )和相对性能提升(  )。例如,在 Tab. 2中,与 SwinIR(=0.24)相比,基于度量学习的 MMRealSR 具有明显的鲁棒性( 0.08)。因此,根据我们目前从粗到细的评估协议,MMRealSR 排名第一。有趣的是,我们发现在雷同的  水平下,SwinIR 实现了更高的 。如果用户优先考虑在可接受使命的性能,SwinIR 将是更好的选择。因此,我们也可以机动地将  设置为第一个更精细的指标。 
(3) 接受线可以作为视觉效果对比的参考线。视觉效果对比表现在 Fig.1和 Fig.2 中。很明显,接受线的视觉效果可以作为图像质量的基本要求,而良好线的视觉效果则代表了当前评估协议下图像质量的上限。低于接受线的视觉效果明显体现出不可接受的视觉效果,包罗模糊(如图中 RealSRGAN 和 DASR 的鳄鱼的视觉效果)、过分锐化(如图中 RealESRNet 的文本效果和其他伪影。值得注意的是,我们的 SEAL 可以根据未来的需要机动利用新的参考线。
与传统方法的对比 
我们随机抽取 100 个退化使命,将其添加到 Set14 中,得到 100 个测试集(Set14-Random)。表 3 表现:1)在两个 Set14-Random100 数据集上获得的 PSNR 平均值(mean)和尺度差(std)表现出明显的不同等性,表明在采样的退化使命中存在很高的随机性和可变性。2) 在我们的 Set14-SE(由 100 个代表性案例构成)上,比力方法的平均值(mean)和尺度差(std)非常接近,因此很难在各种方法之间建立一个具有明显差别的清晰排名。因此,随机生成的测试集无法提供差别化的排名。相比之下,我们的 SEAL 可根据 AR 分数对这些方法举行明白排名,提供了一种新的体系评价视角。


总结 
在这项工作中,我们开发了一种新的评估框架,用于公平、全面地评估real-SR 模子。我们起首利用基于聚类的方法来模拟一个大的退化空间,并设计了两个新的评估指标--AR 和 RPR,用于对 real-SR模子在代表性的退化使命上的评估。然后,我们用提出的评估流程对现有的real-SR 方法举行基准测试,并展示了新的观察效果。最后,我们对退化聚类举行了广泛的对比研究。通过大量的实验和分析,我们证实白 SEAL 的有效性和通用性。 
SEAL可以做什么 
SEAL 提供了大退化空间下性能观测的一个工具。我们可以利用 SEAL 去观测新的模子设计对整个退化空间上不同使命带来的影响,进一步发现更多的 insights,作为新研究的 motivation。此外,SEAL也可以作为全方位对比工具,对设计好的模子和现有模子性能举行对比,以展示新设计模子的特性。 
如果这个工作可以给你带来一点帮助,欢迎各人star我们的开源仓库(https://github.com/XPixelGroup/SEAL)。我们会在近期更新出下一版本的 SEAL benchmark 效果,进一步改进了退化空间表现的方法,构建了新的轻量又具有多样性的 Seal100测试集,提供了 Diffusion-based real-SR测试效果,敬请各人关注!也欢迎接洽(wenlong.zhang@connect.polyu.hk)举行进一步的讨论和合作。
参考文献
[1]. Zhang K, Liang J, Van Gool L, et al. Designing a practical degradation model for deep blind image super-resolution[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 4791-4800. 
[2]. Wang X, Xie L, Dong C, et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1905-1914. 
[3]. Zhang W, Li X, Shi G, et al. Real-world image super-resolution as multi-task learning[J]. Advances in Neural Information Processing Systems, 2024, 36.

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4