论文精读(保姆级剖析)—— Assessing Face Image Quality: A Large-Scale
0 前言该论文发表在2024年计算机视觉顶刊TPAMI上,主要针对面部失真提出了一个大规模数据集核质量评估方法,下面给出论文和项目链接:
[*]论文
[*]项目
1 摘要
在已往十年,面部图像履历了爆炸性的增长。然而,图像在传输大概存储的过程中会存在一些丧失,从而影响图像的质量。为相识决这个问题,本文提出了一种基于Transformer的人像面部质量评估方法(TransFQA)。具体而言,首先创建了一个大规模人像面部评估数据集(FIQA),该数据集包罗42125张不同失真类型的人像面部数据。通过广泛的众包研究,总共获得了712808个主观评价分数,这对评估面部图像具有非常大的资助。进一步地,通过调研我们的数据集,我们全面地分析了不同失真类型和面部组件对图像团体质量的影响。于是,我们提出了一个TransFQA方法。具体而言,首先计划了FC引导的FT-Net,通过一种新的渐进式留意力机制来整合全局背景、人脸地区和面部组件细节特性。然后,计划了一个特定的失真猜测网络(DP-Net),对不同的失真进行加权,并正确猜测最终的质量分数。最后进行了一系列实验证实确该方法的良好性并达到了SOTA效果。
2 引言
在已往的几十年中,面部图像和视频(如vlog等)履历了爆炸性增长,导致数据量也大幅增加。但是,鉴于带宽和存储资源有限,图像压缩对于减少数据量至关告急。然而,图像压缩不可避免地会导致图像出质量低落,如块状效应、噪声和模糊伪影,这种失真的图像显著影响了用户端体验质量(QoE)。因此,研究面部图像质量对于人类感知的影响是急迫必要的,这是图像质量评估(IQA)的核心。别的,通过评估的视觉质量,可以在压缩和传输过程中防止面部图像的不良降质;质量加强也可以用于减轻面部图像上的严重失真。
近年来,从实用性或保真度的角度评估面部图像的视觉质量的研究日益增加。具体而言,实用性相干的IQA方法能够自动衡量面部图像在面部识别中的实用性。比方,Abaza等人提出通过测量对比度、亮度、焦点和照明等IQA因向来猜测面部图像的实用性。Phillips等人提出了一个贪婪修剪排序(GPO)预言机,作为面部识别性能提升的估计上限。他们比较了13种质量测量方法与这个预言机在识别性能方面的表现。在Hernandez-Ortega等人的研究中,他们首先通过计算目的图像与同一主体中质量最高的图像之间的欧氏距离天生了真实标签。然后,他们使用这些真实标签来微调面部识别网络以进行实用性猜测。迩来,Ou等人提出了一种无监督方法,考虑类内和类间相似性分布距离来猜测面部图像的实用性。尽管有大量关于实用性相干IQA的工作,但很少有关于保真度相干IQA的研究。更告急的是,这些方法通过简单地应用为通用图像开辟的IQA方法来评估面部图像质量,从而忽略了面部的特定先验知识。别的,现有方法无法处理面部图像上的不同类型失真,这在现实中很常见。为相识决上述现有工作的不足,本文提出了一种新颖的面部图像IQA方法。
在本文中,首先创建了一个大规模的面部图像质量评估数据库(称为FIQA数据库),这对基于学习的面部图像IQA方法贡献巨大。更具体地说,FIQA数据库包罗总共42,125张面部图像,此中625张是参考面部图像。数据库中的面部图像展示了多样化的属性,包罗各种表情、不同年龄和背景,从而确保内容的多样性。别的,数据库包罗丰富的失真,包罗7种类型的单一失真、3个代表性规复任务相干的失真,以及4种代表性混合失真和现实天下失真。别的,进行了广泛的主观质量评估研究,以获得真实的质量评分。总共有1,432名受试者加入了众包研究,获得了712,808个主观评分。然后进行了严格的数据处理步伐,以确保数据库的可靠性。因此,对于每张面部图像,至少获得了15个可靠的主观评分。基于已创建的FIQA数据库,全面分析了失真类型和面部组件(FCs)对图像质量的影响。作者发现,人类对不同失真类型的敏感性和感知效果不同。别的,面部图像的主观质量与其面部组件的质量比非面部地区(NFRs)的质量更相干。
https://i-blog.csdnimg.cn/direct/99b72f5b46a141929445ec5fc30d0651.png#pic_center
受自己的发现启发,作者提出了一种基于Transformer的面部图像质量评估方法(称为TransFQA)。TransFQA方法是面部特定Transformer用于质量评估的开创性工作。TransFQA方法由4个主要网络构成,即剖析和干网络(PS-Net)、判别性FC嵌入网络(DF-Net)、FC引导的Transformer网络(FT-Net)和特定失真猜测网络(DP-Net)。更具体地说,PS-Net提取空间特性并猜测面部掩模,这提升了面部图像质量评估的性能。在PS-Net之后,DF-Net结合PS-Net的面部掩模天生判别性FC嵌入以用于后续的FT-Net。然后,提出的FT-Net将全局上下文和面部地区(FR)融合为新计划的Transformer的键和值。同时,FT-Net结合FC详细特性作为查询,最终以一种新颖的渐进方式获得加强的质量特性。同时,FT-Net猜测一个失真向量,该向量表现当前失真图像的每种失真类型的概率。最后,提出DP-Net使用失真向量实现特定失真的质量猜测。
作者的工作是首次尝试建模FC质量依赖性并处理不同类型的失真以评估面部图像质量,这可能为将来对失真面部图像的研究铺平道路。作者方法的主要贡献有三点:
[*]创建了一个大规模的面部图像IQA数据库,此中包罗42,125张具有不同失真类型丰富内容的面部图像,每张面部图像的质量由至少15名受试者评分。FIQA数据库在线提供:https://github.com/stayhungry1/FIQA。
[*]全面分析了人类对各种失真类型的敏感性和感知差异,并进一步调查了不同FCs对图像质量的影响。
[*]提出了TransFQA方法,此中使用留意力机制捕获不同FCs之间的质量依赖性,并自顺应融合多种特定失真的猜测器,以评估具有不同失真类型的面部图像的IQA。
3 FIQA 数据库
3.1 特点
大规模,全面,真实,多样性能
3.2 内容和失真类型
关于数据集介绍部分进行简答介绍,有兴趣的可以去看下原文。4种失真类型,单失真人脸图像(FIQA-S),规复人脸图像(FIQA-R),多重失真图像(FIQA-M),以及真实天下图像(FIQA-W)。数据来源于Flickr和Karras等。选择标准:高质量,只有一个人脸,各种角度的面部,全部 1024 × 1024 1024\times1024 1024×1024分辨率。
每种畸变类型的畸变图像数量列于下表。畸变人脸图像的示比方下图所示。从图中可以看出,FIQA数据库中人脸图像的主观质量随着不同类型的失真而有所不同。
https://i-blog.csdnimg.cn/direct/01ac5b97d56140259a2db4ad8657b710.png#pic_center
https://i-blog.csdnimg.cn/direct/e6daf6277eef457a8ecf046f56eeae7f.png#pic_center
3.3 主观评价和验证
实验开辟了一个网站,供加入者在线评分失真图像的质量。加入者被引导根据失真程度评分,而不是面部美学质量,并且实验确保了观看环境的同等性。图像在原始分辨率下通过Firefox或Chrome浏览器查看。
实验的质量评分步伐分为训练和测试两个阶段。训练阶段让加入者熟悉不同类型和质量的失真图像,测试阶段则要求他们对失真图像进行质量评分。采取了DCR双刺激法和ACR五级评分标准,确保实验环境和评分的同等性。最终,实验网络了大量有效评分,并移除了不可靠的数据,确保了效果的可靠性。
3.4 主观评分验证
FIQA数据库包罗了广泛的主观评分范围,从1到5,涵盖了不同质量水平的图像。不同退化级别的主观评分清晰分离,并随着退化级别增加而低落,表明评分能够正确反映退化程度。FIQA数据库的组内相干系数(ICC)为0.60,显示其主观评分具有高可靠性,与其他数据库相当乃至更高。这些效果验证了FIQA数据库在面部图像质量评估任务中的有效性。
4. 数据分析
FIQA数据库涵盖了根本和复杂失真,研究了这些失真对图像质量的影响,并探究了特性分量对主观质量的告急性,这为后续的架构计划提供了基础。具体内容请参考原文,这里做重点介绍,有兴趣的可以直接看原文。
4 方法
https://i-blog.csdnimg.cn/direct/1155db7d69724eedba206adc1d51fecf.png
如上图所示,作者提出了TransFQA,总共包罗四个网络子布局:PS-Net、DF-Net、FT-Net和DP-Net。此中,PS-Net用于猜测面部掩模并提取空间特性,这些特性在DF-Net中被整合成判别性FC嵌入。FT-Net然后通过渐进留意力机制猜测失真向量,并天生加强的面部地区-面部组件质量特性。最后,DP-Net被计划用于加权不同失真类型,从而正确猜测面部图像的质量分数。
具体而言,首先将面部图像I输入到PS-Net中,此中面部先验模块猜测 N f N_f Nf个面部掩码 M ^ i = 1 N f {\hat{M}_{i=1}^{N_f}} M^i=1Nf,主干 CNN 从面部图像中提取空间特性 F S F^{S} FS,随后,DF-Net融合 F S F^{S} FS和 N f N_f Nf个面部掩码形成判别FC标记嵌入 F E F^{E} FE。紧随 DF-Net 之后,FT-Net 根本上创建了一个新的 Transformer 架构,该架构以渐进的方式显式集成了物理信息,即全局上下文、FR 和 FC 的详细特性,用于面部图像质量评估(IQA)。更进一步,对于全局线索,空间特性 F S F^{S} FS被送入IQA模块去获得全面的全局上下文特性 P l g ′ P_{lg}^{\prime} Plg′和失真向量 x ′ x^{\prime} x′。与此同时,学习局部线索,嵌入的 F E F^{E} FE被喂到IFC查询模块去捕获长距离的内部和外部FC之关系,从而全面的提高面部质量评估性能。效果,可以获得FC的细节特性 U L i U_{Li} ULi。随后,给定FR映射MR。加强的FR编码模块通过渐进留意力机制集成 F E F^{E} FE, U L i U_{Li} ULi和 M ^ R \hat{M}^{R} M^R,获得加强的FR-FC特性 D L e D_{Le} DLe。最后,失真向量 x ^ {\hat{x}} x^和质量特性 D L e D_{Le} DLe被输入到DP-Net中,自顺应地融合多种特定失真猜测器,以产生面部图像的总体质量评分 s ′ s^{\prime} s′。下面详细介绍四个网络布局。
4.1 PS-Net(剖析和主干网络)
人像的面部组件质量比非面部组件质量更告急,于是作者提出了PS-Net去猜测面部掩码,该面部掩码可以用于面部质量评估。PS-Net主要由两部分构成(如网络模子图所示),面部先验模块和CNN骨干构成。此中,面部先验模块由堆叠式先验模块构成,经过一系列的上采样,下采样,残差布局等操纵,最终获得猜测掩码 I ^ M \hat{I}^{M} I^M,最终总结出 N f N_f Nf个掩码 M i ^ i = 1 N f {\hat{M_i}_{i=1}^{N_{f}}} Mi^i=1Nf。CNN骨干网络用于提取面部信息的空间特性,构成部分是ResNet的前三层,最终获得空间特性 F S F^{S} FS。
4.2 (判别FC嵌入网络)
面部主观质量评价依赖于不同的面部组件,于是作者计划了一个DF-Net网络去融合 N f N_f Nf个面部掩码,通过该掩码为FT-Net天生一系列的判别FC嵌入。具体而言,DF-Net由每个FC特性嵌入(PFFE)模块构成,如下图所示:
https://i-blog.csdnimg.cn/direct/0076d32bde0b4f15b1cbaad660b5f14c.png#pic_center
给定第i个FC的猜测掩模 m i m_i mi和空间特性FS,可通过如下公式天生判别性的质量特性:
F i D = C o n v ( M i ^ ⊙ F S + F S ) F_{i}^{D} = Conv(\hat{M_i}\odot F^S + F^S) FiD=Conv(Mi^⊙FS+FS)
此中 C o n v Conv Conv表现共享卷积层。通过该操纵,最终可以产生一系列的FC特性 F i D i = 1 N f ∈ R C × N f × H × W {{F_i}^{D}}_{i=1}^{N_f} \in R^{C \times N_f \times H \times W} FiDi=1Nf∈RC×Nf×H×W。接下来,将FC特性均匀划分为管状令牌,划分的间隔分别为Nt、Ht和Wt,对应于FC特性的维度、高度和宽度。这一划分过程可以表现为:
https://i-blog.csdnimg.cn/direct/b50c74e71ad3435ab26f1295406ad072.png
此中 N f ′ , H ′ , W ′ N_f^{\prime},H^{\prime},W^{\prime} Nf′,H′,W′,表现每个维度中管状令牌的数量。将这些管状令牌重塑,然后采取线性层减少它们的维度,天生令牌嵌入 F E ∈ R C ′ × N f ′ × ( H ′ W ′ ) F_E \in R^{C^{\prime} \times N_f^{\prime} \times (H^{\prime} W^{\prime})} FE∈RC′×Nf′×(H′W′),通过下面的公式进行简化标记:
F E = L i n ( P a t ( F i D i = 1 N f ) ) F_E = Lin(Pat({F_i^D}_{i=1}^{N_f})) FE=Lin(Pat(FiDi=1Nf))
此中, P a t ( ⋅ ) Pat(·) Pat(⋅)和 L i n ( ⋅ ) Lin(·) Lin(⋅)分别对应管分区和线性层的操纵。
4.3 FT-Net(面部组件引导的Transformer网络)
不同的面部扭曲类型对人的感知有不同程度的影响。在FT-Net中提出了一个全局IQA模块,以猜测表现每种失真类型概率的失真向量。作者提到,失真向量可用于资助后面DP-Net中的质量猜测。同时,全局IQA模块能够从人脸图像中提取全局上下文特性。另一方面,作者在FT-Net中计划了IFC查询模块。该模块采取两种留意机制来学习FC细节特性,用于评估人脸图像的质量。在这2个模块的基础上,开辟了加强的FR编码器模块,渐渐整合全局上下文、FR和FC细节特性,以实现人脸IQA从粗到精的关注。
4.3.1 Global IQA Module(全局IQA模块)
https://i-blog.csdnimg.cn/direct/1092c39fd74642b8b7e79b837bbd0570.png#pic_center
4.3.2 IFC Query Module(IFC查询模块)
https://i-blog.csdnimg.cn/direct/3c1126fec914443291620b8037e8326c.png#pic_center
4.4 DP-Net(特定失真猜测网络)
人类对不同失真类型具有不同的灵敏度和感知结,于是作者计划了DP-Net来使用失真向量来实现特定失真的质量猜测。迩来,许多研究都试图估计失真信息并将其纳入IQA任务,。一样平常来说,这些作品使用固定的网络和2个流进行多任务学习。然而,固定网络对图像失真空间建模的表现能力有限,无法灵活处理不同失真类型的图像。为相识决这个问题,给定失真向量 x x x,作者在DP-Net中提出了失真特定质量评估(DSQA)模块,以自顺应融合多个失真特定猜测器进行质量猜测。
实验
[*]数据集:FIQA
[*]训练平台:3090
[*]评估指标:PLCC,SROCC,KROCC,RMSE,MAE
5 性能
5.1 定量比较
https://i-blog.csdnimg.cn/direct/f9d67f0f458d4f8aad93f2b807bc3b25.png
5.1 定性比较
https://i-blog.csdnimg.cn/direct/a2a67132860d4e449c7e9a12bf1d16a6.png
总结预测
在本文中,作者提出了TransFQA方法用于面部图像质量评估。首先,创建了迄今为止用于评估面部图像质量的最大数据库,此中包罗42,125张不同失真类型的面部图像,每张图像的质量评分由至少15名受试者评定。接下来,全面分析了失真类型和面部组件(FCs)对团体图像质量的影响。在研究效果的启发下,提出了一种基于Transformer的新方法,包罗4个主要网络,用于猜测面部图像的主观质量。特殊地,FT-Net旨在通过新提出的渐进留意力机制整合全局上下文、面部地区(FR)和FC详细特性。别的,DP-Net被计划用于加权不同类型的失真并评估最终的质量得分。广泛的实验效果表明,TransFQA方法在面部图像质量评估方面显著优于其他现有的方法。
将来,探索弱监督或无监督方法用于评估面部图像质量具有很大的研究价值。TransFQA方法可能通过少样本学习范式得到进一步的提升。同时,创建一个包罗更多失真类型的面部图像质量评估更大型数据库是很有远景的。别的,TransFQA方法的潜伏应用,比方受感知启发的视频编码,也是将来值得探索的方向。
以上就是对本篇论文的解读,如有任何问题欢迎留言,品评指正!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]