首先先容正向和逆向 ISP 任务中的 XYZ 图像格式。XYZ 图像是与装备无关的辐射度量,学习 XYZ 图像与学习原始图像有雷同的利益。因此我们选择将相机拍摄的原始图像处理惩罚得到的 XYZ 图像作为原始模态。具体而言,XYZ 图像是通过对真实原始图像 RAW 应用 ISP 的固定流程得到的,这个阶段使用拍摄时的白均衡、固定的线性去马赛克算法以及当前装备的 camera-to-XYZ 矩阵,且不应用伽马色调映射。在这种设置下,XYZ 图像与原始图像呈线性相关,它们可以相互转换且无损失。
图 2 展示了同一图像信号处理惩罚器(Uni - ISP)的整体流程,它包罗逆向 ISP 模块 g g g 和正向 ISP 模块 h h h。我们的模子旨在学习 ISP 任务时可以或许识别各种摄像装备。假设我们这里讨论的图像尺寸均为 H × W H \times W H×W,通道数为 C C C。给定由相机 a 生成的 sRGB 图像 I a ∈ R H × W × C I_{a} \in \mathbb{R}^{H \times W \times C} Ia∈RH×W×C, ε a ∈ R D \varepsilon_{a} \in \mathbb{R}^{D} εa∈RD 表现针对相机 a 的尺寸为 D 的装备感知嵌入,逆向 ISP 模块 g g g 通过学习在给定输入 I a I_{a} Ia 的情况下输出相机 a 对应的 XYZ 图像 L ^ a \hat{L}_{a} L^a。
L ^ a = g ( I a , ε a ) (1) \hat{L}_{a} = g(I_{a}, \varepsilon_{a}) \tag{1} L^a=g(Ia,εa)(1)
前向 ISP 模块 h h h 学习从给定的实际 XYZ 图像 L a L_{a} La 中预测 I ^ a \hat{I}_{a} I^a
I ^ a = g ( L a , ε a ) (2) \hat{I}_{a} = g(L_{a}, \varepsilon_{a}) \tag{2} I^a=g(La,εa)(2)
模块 g ( ⋅ ) g(\cdot) g(⋅) 和 h ( ⋅ ) h(\cdot) h(⋅) 学习图像信号处理惩罚器(ISP)在不同装备间的通用属性,而装备感知嵌入 ε a \varepsilon_{a} εa 则侧重于相机 a 特定的自有属性。上述公式使我们可以或许通过将 g , h g, h g,h 与装备感知嵌入 $ {\varepsilon_{a}, \varepsilon_{b}, \varepsilon_{c}, …, \varepsilon_{z} }$ 一起训练,来同时学习多台相机 { a , b , c , … , z } \{a, b, c, …, z\} {a,b,c,…,z} 的 ISP 活动。
Model Design
图 2 Uni-ISP 的模子设计。Uni-ISP 包罗两个模块,即逆 ISP 模块 g 和正 ISP 模块 h。这两个模块具有雷同的布局。为了视觉上的简便,我们将逆 ISP 模块 g 绘制成缩略图,其内部布局与正 ISP 模块 h 雷同。装备感知嵌入是可优化的参数,在训练或推理过程中,它们将通过 DEIM(动态嵌入交互机制)被选择与瓶颈特征举行交互。
如图 2 所示,同一图像信号处理惩罚器(Uni - ISP)使用了逆向 ISP 模块 g g g 和正向 ISP 模块 h h h,每个模块都具有编码器-解码器架构。两个模块都包罗局部特征提取块(LFEBs)用于过细的局部处理惩罚,以及全局特征操纵块(GFMBs)用于大范围的图像调整,这反映了真实相机 ISP 的双重处理惩罚机制,即同时处理惩罚诸如曝光赔偿和色彩校正等全局操纵,以及色调映射和高光规复等局部任务。 Local Feature Extraction Blocks 同一图像信号处理惩罚器(Uni - ISP)中的每个编码器息争码器阶段都包罗四个局部特征提取块(LFEBs)。编码器阶段的 LFEBs 包罗最大池化层,解码器阶段的 LFEBs 包罗上采样层。每个 LFEB 包罗多个卷积层、激活层、半实例归一化层以及空间 / 通道注意力层。残差连接将编码器息争码器阶段的 LFEBs 连接起来。 Global Feature Manipulation Blocks 全局 ISP 操纵受到曝光时间和 ISO 等参数的显著影响,这些参数会改变照片的整体外观。我们设计的全局特征操纵块(GFMBs)旨在结合这些参数来修改来自编码器局部特征提取块(LFEBs)的残差特征。然后,这些经过操纵的特征会被传递到解码器阶段相应的 LFEBs。使用过的相机参数(曝光、ISO 和光圈值)是从相机生成的 JPEG 图像的 EXIF 元数据中提取出来的。 Device-aware Embedding Interaction Module 装备感知嵌入交互模块(DEIM)位于编码器息争码器阶段之间,通过与装备感知嵌入举行交互,增强了模子顺应不同摄像装备的本领。给定一个装备感知嵌入 ε a \varepsilon_{a} εa,DEIM 对来自编码器阶段的瓶颈特征 B 应用基于注意力的变动,并输出 F a F_a Fa。这种设置使模子可以或许自顺应地同时学习多台相机的 ISP 活动。
Training Scheme
文章为同一图像信号处理惩罚器(Uni - ISP)精心设计了一种特殊的训练方案,该方案包罗两种训练目标,即自相机图像信号处理惩罚器(ISP)目标和跨相机 ISP 目标。
Self-Camera Training Objective
在自相机训练目标中,我们的同一图像信号处理惩罚器(Uni - ISP)同时学习多台相机的逆向和正向图像信号处理惩罚器(ISP)活动。
L I n v = ∥ L a − L ^ a ∥ 1 (3) \mathcal{L}_{Inv} = \left \| L_{a} - \hat{L}_{a} \right \|_{1} \tag{3} LInv= La−L^a 1(3)
L F o r = ∥ I a − I ^ a ∥ 1 (4) \mathcal{L}_{For} = \left \| I_{a} - \hat{I}_{a} \right \|_{1} \tag{4} LFor= Ia−I^a 1(4)
Cross-Camera Training Objective
跨相机训练目标中的目标照片是由与拍摄输入照片不同的相机拍摄的。具体而言,这种训练目标应用于正向图像信号处理惩罚器(ISP)模块 h h h 以处理惩罚相机模子转换。假设 I a I_a Ia 是由相机 a 拍摄的, I b I_b Ib 是由相机 b 拍摄的,同一图像信号处理惩罚器(Uni - ISP)的逆向 ISP 模块 g g g 将 I a I_a Ia 作为输入并预测 XYZ 图像 L ^ a \hat{L}_a L^a,这与公式 (1) 中形貌的过程雷同。然后,正向 ISP 模块 h 将预测的 L ^ a \hat{L}_a L^a 转换为相机 b 的 sRGB 图像 I ^ b \hat{I}_b I^b:
I ^ b = h ( ε b , L ^ a ) (5) \hat{I}_{b} = h(\varepsilon_{b}, \hat{L}_a) \tag{5} I^b=h(εb,L^a)(5)
其中, ε b \varepsilon_{b} εb 表现相机 b 的装备感知嵌入。
上面的loss 优化有一个问题,由于输入图像 I a I_a Ia 和输出真实值 I b I_{b} Ib 无法对齐,由于它们是用不同的相机拍摄的。这使得像 L1 loss 如许的像素级损失无法驱动最小化 I ^ b \hat{I}_b I^b 和 I b I_{b} Ib 之间距离的跨相机训练目标。因此,文章首先使用基于光流的方法 RAFT 来对用于跨相机训练目标的数据集举行 warp。所有由相机拍摄 b 的 sRGB 图像 I b I_{b} Ib 都将被变形为 I b w I_{b}^{w} Ibw,使其与由相机 a 拍摄的 sRGB 图像 I a I_{a} Ia 对齐。我们对数据会合每一个可能的 camera-to-camera 的 sRGB 图像对都应用这种 warp 操纵。在训练过程中,任何无法对齐的地域都将被标注为遮挡地域并举行掩模处理惩罚。
然而,尽管基于光流的变形方法有效地对齐了这些图像,但它也在我们的数据会合引入了频率偏差。如图 3 所示,与变形前的图像相比,变形后的图像每每缺少高频细节。如果我们直接使用对齐后的图像来训练我们的模子,它将意外地在跨相机 ISP 任务中对图像举行平滑处理惩罚。为解决这个问题,我们针对跨相机训练目标提出了频率偏差校正(FBC)损失。公式(6)展示了该任务的过程。FBC 损失可写为:
L F B C = ∥ f l o w ( I ^ b ) − f l o w ( I b w ) ∥ + L f r e q ( I ^ b , I b ) (6) \mathcal{L}_{FBC} = \left \| f_{low}(\hat{I}_b) - f_{low}({I}_{b}^{w}) \right \| + \mathcal{L}_{freq}(\hat{I}_{b}, I_{b}) \tag{6} LFBC= flow(I^b)−flow(Ibw) +Lfreq(I^b,Ib)(6)
其中, f l o w f_{low} flow 表现一个低通滤波器,文章用了一个高斯模糊核实现, L f r e q \mathcal{L}_{freq} Lfreq 表现频域的 loss。
Overall Loss
整体的 loss 情势为:
L = L I n v + L F o r + L F B C + λ L N R R (7) \mathcal{L} = \mathcal{L}_{Inv} + \mathcal{L}_{For} + \mathcal{L}_{FBC} + \lambda \mathcal{L}_{NRR} \tag{7} L=LInv+LFor+LFBC+λLNRR(7)
其中 L N R R \mathcal{L}_{NRR} LNRR 是附加的中性渲染正则化项, λ \lambda λ 是它的均衡权重。当中性渲染正则化在装备感知嵌入被给定为零向量时,引导模子学习一个在 XYZ 和 sRGB 色彩空间之间执行标准色彩转换的虚拟相机。
L N R R = ∥ s ( I a ) − g ( I a , 0 ) ∥ 1 + ∥ s − 1 ( L a ) − h ( L a , 0 ) ∥ 1 (8) \mathcal{L}_{NRR} = \left \| s(I_a) - g(I_a, \mathbf{0}) \right \|_1 + \left \| s^{-1}(L_a) - h(L_a, \mathbf{0}) \right \|_1 \tag{8} LNRR=∥s(Ia)−g(Ia,0)∥1+ s−1(La)−h(La,0) 1(8)
s ( ⋅ ) , s − 1 ( ⋅ ) s(\cdot), s^{-1}(\cdot) s(⋅),s−1(⋅) 分别表现 sRGB-XYZ 和 XYZ-sRGB 之间的色彩空间转换。如果用户想要增强或减弱某台相机的摄影风格,而不与另一台相机的装备感知嵌入举行内插或外推操纵,中性渲染正则化会为用户提供一个锚点。
Novel Dataset