qidao123.com技术社区-IT企服评测·应用市场

标题: 论文阅读：Uni-ISP Unifying the Learning of ISPs from Multiple Cameras [打印本页]

作者: 写过一篇 时间: 2024-11-17 08:26
标题: 论文阅读：Uni-ISP Unifying the Learning of ISPs from Multiple Cameras
这是 ECCV 2024 的一篇文章，文章作者想建立一个同一的 ISP 模子，以实如今不同手机之间的自由切换。文章作者是香港中文大学的 xue tianfan 和 Gu jinwei 老师。
Abstract

现代端到端图像信号处理惩罚器（ISPs）可以或许学习从 RAW/XYZ 数据到 sRGB（或其逆过程）的复杂映射，为图像处理惩罚带来了新的可能性。然而，随着相机型号的多样性不断增加，长期开发和维护单个 ISP 是难以持续的，由于其自己缺乏通用性，拦阻了对多种相机型号的顺应性。这篇文章提出了一种新颖的流程 —— 同一图像信号处理惩罚器（Uni - ISP），它同一了对多个相机的 ISP 学习，为多种相机型号提供了精确且通用的处理惩罚器。Uni - ISP 的核心是通过学习正向 / 逆向 ISP 及其特殊的训练方案来使用装备感知嵌入。通过这种方式，Uni - ISP 不但提高了正向 / 逆向 ISP 的性能，还开启了现有学习型 ISP 无法实现的多种新应用。此外，由于没有由多个相机同步拍摄用于训练的数据集，文章还构建了一个真实天下的 4K 数据集 ——FiveCam，它包罗由五部智能手机同步拍摄的 2400 多对 sRGB - RAW 图像。文章举行了大量实验，证明白 Uni - ISP 在正向 / 逆向 ISP 中的精确性（峰值信噪比分别提高了 + 1.5dB/2.4dB）、其在实现新应用方面的通用性以及对新相机型号的顺应性。
Introduction

图像信号处理惩罚器（ISP）将相机传感器捕捉的原始图像数据转换为诸如 sRGB 等可查看的格式，在决定照片的视觉质量方面起着关键作用。通过精心设计它们的 ISP，各个相机品牌塑造出了符合不同用户偏好的独特摄影风格。例如，苹果（Apple）智能手机相机以其清晰且独具特色的 “苹果感” 而广受赞誉，而徕卡（Leica）相机则因其光晕效果和浓郁的色调备受推崇，形成了标志性的徕卡风格。
近期，神经网络已被用于逼近整个图像信号处理惩罚器（ISP）或特定模块，即学习型 ISP，这带来了两大主要益处。

1）性能提升。神经网络强大的表征本领使学习型 ISP 可以或许执行具有挑战性的任务，例如对高光和阴影地域中的细节内容举行脑补。
2）新功能。学习型 ISP 引入了新功能，例如逆向 ISP，它能将 sRGB 图像转换回 RAW/XYZ 空间，为原始域增强和进一步处理惩罚（如去模糊、去噪、高动态范围（HDR）摄影等）提供了更大的机动性和潜力。这些创新拓展了学习型 ISP 的应用范围和潜力。

然而，如今的方法仍然是针对单个相机型号设计和训练 ISP，这可能会限制不同 ISP 之间的协同效益。此外，通用模子在低层级视觉、高层级视觉和多模态等多个领域都显现出了上风。随着相机型号数量的增加，单个学习型 ISP 可能也缺乏广泛应用所需的通用性和顺应性，从长远来看可能难以为继。
在本文中，我们旨在对来自不同相机的图像信号处理惩罚器（ISP）举行同一学习，这有两个直接的上风。

1）通过使用来自多个相机的 ISP 之间的协同效应来提升视觉质量。同一学习使 ISP 可以或许明白不同数据中的潜伏共性和差异，从而使视觉表现得到整体提升。
2）同一学习提供了新颖的应用，超越了现有学习型 ISP 仅限于正向和逆向 ISP 的本领。这种同一学习实现了诸如跨不同相机型号的影像风格之间的转换、插值和外推等新用途。此外，它还支持基于 ISP 活动自洽性的零样本图像取证，包括图像级别的源相机识别和像素级别的图像拼接检测。

不过为多台相机学习一个具有装备感知本领的图像信号处理惩罚器（ISP）模子绝非易事，面临着诸多挑战。首先，我们发现，在现有模子中简朴地混合来自多台相机的训练数据并不能带来令人满足的性能。因此，我们提出了 Uni - ISP，这是一种用于多台相机的新型同一 ISP 模子，它包罗若干可优化的装备感知嵌入，用于学习不同相机的 ISP。这些装备感知嵌入使模子可以或许捕捉针对单个装备量身定制的特定特性，而共享的主干网络则能捕捉潜伏的共性。
其次，如今的 ISP 数据集并不包罗由多台相机拍摄的同步 sRGB - Raw 图像对。尽管这类数据对于学习单个 ISP 并非必须，但对于学习支持不同相机型号协同增效并能开发新应用的同一 ISP 至关紧张。为解决这一问题，我们用五部智能手机搭建了一个同步相机阵列，并构建了一个新的数据集 ——FiveCam，该数据集包罗 2464 对同步的、空间分辨率为 4K 的高质量 sRGB - Raw 配对图像。所收罗的数据集涵盖了从风景到特写等广泛的场景，并且包罗不同的光照条件，包括白天和夜晚的室内外环境。
第三，鉴于不同相机拍摄的同步照片对中不可避免地存在错位，需要一种稳健的对齐和训练方案。为了应对这一挑战，我们首先使用基于光流的方法对图像举行粗略对齐，这会在变形图像中引入频率偏差。然后，我们设计了一种频率偏差校正（FBC）损失来减轻纹理模糊。此外，我们引入了自相机 / 跨相机训练方案，以促进在雷同 / 不同相机型号上的应用。
通过这三项设计，同一图像信号处理惩罚器（Uni - ISP）可应用于广泛的图像任务，例如跨不同相机型号的摄影外观转换、插值和外推。用户可以将一种相机型号的视觉特性应用到另一种相机上，实现独特的美学效果。还可以使用这些 ISP 活动的自洽性来促进零样本图像取证任务，包括源相机识别和图像拼接检测。大量实验表明，Uni - ISP 优于现有技术，在逆向 ISP 中峰值信噪比（PSNR）约高 1.5dB，在正向 ISP 中约高 2.4dB。

图1 ：我们提出了 Uni-ISP 模子，该模子可同时同一多个相机的逆 ISP（图像信号处理惩罚）活动和正 ISP 活动的学习。
通过使用不同相机 ISP 之间的共享特性，与之前仅针对单个相机分别学习的 ISP 方法相比，我们的方法在逆 ISP 和正 ISP（A）方面可以或许实现更高的性能。同时，Uni-ISP 的装备感知特性使得一个已学习的 ISP 模子可以或许应用于新的跨相机 ISP 场景，包括摄影外观迁移（B 和 C）、内插 / 外推（D）以及零样本图像取证（E 和 F）。

Method

Overview

首先先容正向和逆向 ISP 任务中的 XYZ 图像格式。XYZ 图像是与装备无关的辐射度量，学习 XYZ 图像与学习原始图像有雷同的利益。因此我们选择将相机拍摄的原始图像处理惩罚得到的 XYZ 图像作为原始模态。具体而言，XYZ 图像是通过对真实原始图像 RAW 应用 ISP 的固定流程得到的，这个阶段使用拍摄时的白均衡、固定的线性去马赛克算法以及当前装备的 camera-to-XYZ 矩阵，且不应用伽马色调映射。在这种设置下，XYZ 图像与原始图像呈线性相关，它们可以相互转换且无损失。
图 2 展示了同一图像信号处理惩罚器（Uni - ISP）的整体流程，它包罗逆向 ISP 模块                                  g                            g                g 和正向 ISP 模块                                  h                            h                h。我们的模子旨在学习 ISP 任务时可以或许识别各种摄像装备。假设我们这里讨论的图像尺寸均为                                  H                      ×                      W                            H \times W                H×W，通道数为                                  C                            C                C。给定由相机 a 生成的 sRGB 图像                                           I                         a                               ∈                                  R                                     H                            ×                            W                            ×                            C                                              I_{a} \in \mathbb{R}^{H \times W \times C}                Ia∈RH×W×C，                                           ε                         a                               ∈                                  R                         D                                     \varepsilon_{a} \in \mathbb{R}^{D}                εa∈RD 表现针对相机 a 的尺寸为 D 的装备感知嵌入，逆向 ISP 模块                                  g                            g                g 通过学习在给定输入                                           I                         a                                     I_{a}                Ia 的情况下输出相机 a 对应的 XYZ 图像                                                       L                            ^                                     a                                     \hat{L}_{a}                L^a。
                                                                                                                  L                                        ^                                                    a                                                 =                                  g                                  (                                                 I                                     a                                                 ,                                                 ε                                     a                                                 )                                                                         (1)                                                    \hat{L}_{a} = g(I_{a}, \varepsilon_{a}) \tag{1}                   L^a=g(Ia,εa)(1)
前向 ISP 模块                                  h                            h                h 学习从给定的实际 XYZ 图像                                           L                         a                                     L_{a}                La 中预测                                                       I                            ^                                     a                                     \hat{I}_{a}                I^a
                                                                                                                  I                                        ^                                                    a                                                 =                                  g                                  (                                                 L                                     a                                                 ,                                                 ε                                     a                                                 )                                                                         (2)                                                    \hat{I}_{a} = g(L_{a}, \varepsilon_{a}) \tag{2}                   I^a=g(La,εa)(2)
模块                                  g                      (                      ⋅                      )                            g(\cdot)                g(⋅) 和                                  h                      (                      ⋅                      )                            h(\cdot)                h(⋅) 学习图像信号处理惩罚器（ISP）在不同装备间的通用属性，而装备感知嵌入                                           ε                         a                                     \varepsilon_{a}                εa 则侧重于相机 a 特定的自有属性。上述公式使我们可以或许通过将                                  g                      ,                      h                            g, h                g,h 与装备感知嵌入 $ {\varepsilon_{a}, \varepsilon_{b}, \varepsilon_{c}, …, \varepsilon_{z} }$ 一起训练，来同时学习多台相机                                  {                      a                      ,                      b                      ,                      c                      ,                      …                      ,                      z                      }                            \{a, b, c, …, z\}                {a,b,c,…,z} 的 ISP 活动。
Model Design

图 2 Uni-ISP 的模子设计。Uni-ISP 包罗两个模块，即逆 ISP 模块 g 和正 ISP 模块 h。这两个模块具有雷同的布局。为了视觉上的简便，我们将逆 ISP 模块 g 绘制成缩略图，其内部布局与正 ISP 模块 h 雷同。装备感知嵌入是可优化的参数，在训练或推理过程中，它们将通过 DEIM（动态嵌入交互机制）被选择与瓶颈特征举行交互。

如图 2 所示，同一图像信号处理惩罚器（Uni - ISP）使用了逆向 ISP 模块                                  g                            g                g 和正向 ISP 模块                                  h                            h                h，每个模块都具有编码器-解码器架构。两个模块都包罗局部特征提取块（LFEBs）用于过细的局部处理惩罚，以及全局特征操纵块（GFMBs）用于大范围的图像调整，这反映了真实相机 ISP 的双重处理惩罚机制，即同时处理惩罚诸如曝光赔偿和色彩校正等全局操纵，以及色调映射和高光规复等局部任务。
Local Feature Extraction Blocks 同一图像信号处理惩罚器（Uni - ISP）中的每个编码器息争码器阶段都包罗四个局部特征提取块（LFEBs）。编码器阶段的 LFEBs 包罗最大池化层，解码器阶段的 LFEBs 包罗上采样层。每个 LFEB 包罗多个卷积层、激活层、半实例归一化层以及空间 / 通道注意力层。残差连接将编码器息争码器阶段的 LFEBs 连接起来。
Global Feature Manipulation Blocks 全局 ISP 操纵受到曝光时间和 ISO 等参数的显著影响，这些参数会改变照片的整体外观。我们设计的全局特征操纵块（GFMBs）旨在结合这些参数来修改来自编码器局部特征提取块（LFEBs）的残差特征。然后，这些经过操纵的特征会被传递到解码器阶段相应的 LFEBs。使用过的相机参数（曝光、ISO 和光圈值）是从相机生成的 JPEG 图像的 EXIF 元数据中提取出来的。
Device-aware Embedding Interaction Module 装备感知嵌入交互模块（DEIM）位于编码器息争码器阶段之间，通过与装备感知嵌入举行交互，增强了模子顺应不同摄像装备的本领。给定一个装备感知嵌入                                           ε                         a                                     \varepsilon_{a}                εa，DEIM 对来自编码器阶段的瓶颈特征 B 应用基于注意力的变动，并输出                                           F                         a                                     F_a                Fa。这种设置使模子可以或许自顺应地同时学习多台相机的 ISP 活动。
Training Scheme

文章为同一图像信号处理惩罚器（Uni - ISP）精心设计了一种特殊的训练方案，该方案包罗两种训练目标，即自相机图像信号处理惩罚器（ISP）目标和跨相机 ISP 目标。
Self-Camera Training Objective

在自相机训练目标中，我们的同一图像信号处理惩罚器（Uni - ISP）同时学习多台相机的逆向和正向图像信号处理惩罚器（ISP）活动。
                                                                                                   L                                                    I                                        n                                        v                                                             =                                                                ∥                                                          L                                           a                                                       −                                                                         L                                              ^                                                             a                                                       ∥                                                    1                                                                                        (3)                                                    \mathcal{L}_{Inv} = \left \| L_{a} - \hat{L}_{a} \right \|_{1} \tag{3}                   LInv=             La−L^a             1(3)
                                                                                                   L                                                    F                                        o                                        r                                                             =                                                                ∥                                                          I                                           a                                                       −                                                                         I                                              ^                                                             a                                                       ∥                                                    1                                                                                        (4)                                                    \mathcal{L}_{For} = \left \| I_{a} - \hat{I}_{a} \right \|_{1} \tag{4}                   LFor=             Ia−I^a             1(4)
Cross-Camera Training Objective

跨相机训练目标中的目标照片是由与拍摄输入照片不同的相机拍摄的。具体而言，这种训练目标应用于正向图像信号处理惩罚器（ISP）模块                                  h                            h                h 以处理惩罚相机模子转换。假设                                           I                         a                                     I_a                Ia 是由相机 a 拍摄的，                                           I                         b                                     I_b                Ib 是由相机 b 拍摄的，同一图像信号处理惩罚器（Uni - ISP）的逆向 ISP 模块                                  g                            g                g 将                                           I                         a                                     I_a                Ia 作为输入并预测 XYZ 图像                                                       L                            ^                                     a                                     \hat{L}_a                L^a，这与公式 (1) 中形貌的过程雷同。然后，正向 ISP 模块 h 将预测的                                                       L                            ^                                     a                                     \hat{L}_a                L^a 转换为相机 b 的 sRGB 图像                                                       I                            ^                                     b                                     \hat{I}_b                I^b：
                                                                                                                  I                                        ^                                                    b                                                 =                                  h                                  (                                                 ε                                     b                                                 ,                                                                L                                        ^                                                    a                                                 )                                                                         (5)                                                    \hat{I}_{b} = h(\varepsilon_{b}, \hat{L}_a) \tag{5}                   I^b=h(εb,L^a)(5)
其中，                                           ε                         b                                     \varepsilon_{b}                εb 表现相机 b 的装备感知嵌入。
上面的loss 优化有一个问题，由于输入图像                                           I                         a                                     I_a                Ia 和输出真实值                                           I                         b                                     I_{b}                Ib 无法对齐，由于它们是用不同的相机拍摄的。这使得像 L1 loss 如许的像素级损失无法驱动最小化                                                       I                            ^                                     b                                     \hat{I}_b                I^b 和                                           I                         b                                     I_{b}                Ib 之间距离的跨相机训练目标。因此，文章首先使用基于光流的方法 RAFT 来对用于跨相机训练目标的数据集举行 warp。所有由相机拍摄 b 的 sRGB 图像                                           I                         b                                     I_{b}                Ib 都将被变形为                                           I                         b                         w                                     I_{b}^{w}                Ibw，使其与由相机 a 拍摄的 sRGB 图像                                           I                         a                                     I_{a}                Ia 对齐。我们对数据会合每一个可能的 camera-to-camera 的 sRGB 图像对都应用这种 warp 操纵。在训练过程中，任何无法对齐的地域都将被标注为遮挡地域并举行掩模处理惩罚。

图 3 使用光流法包裹的数据集内频率偏差示意图。与原始图像相比，包裹过程中的插值会使图像看起来模糊，消除了其高频成分。

然而，尽管基于光流的变形方法有效地对齐了这些图像，但它也在我们的数据会合引入了频率偏差。如图 3 所示，与变形前的图像相比，变形后的图像每每缺少高频细节。如果我们直接使用对齐后的图像来训练我们的模子，它将意外地在跨相机 ISP 任务中对图像举行平滑处理惩罚。为解决这个问题，我们针对跨相机训练目标提出了频率偏差校正（FBC）损失。公式（6）展示了该任务的过程。FBC 损失可写为：
                                                                                                   L                                                    F                                        B                                        C                                                             =                                                 ∥                                                    f                                                          l                                           o                                           w                                                                   (                                                                      I                                           ^                                                       b                                                    )                                     −                                                    f                                                          l                                           o                                           w                                                                   (                                                    I                                        b                                        w                                                    )                                     ∥                                                 +                                                 L                                                    f                                        r                                        e                                        q                                                             (                                                                I                                        ^                                                    b                                                 ,                                                 I                                     b                                                 )                                                                         (6)                                                    \mathcal{L}_{FBC} = \left \| f_{low}(\hat{I}_b) - f_{low}({I}_{b}^{w}) \right \| + \mathcal{L}_{freq}(\hat{I}_{b}, I_{b}) \tag{6}                   LFBC=             flow(I^b)−flow(Ibw)             +Lfreq(I^b,Ib)(6)
其中，                                           f                                     l                            o                            w                                              f_{low}                flow 表现一个低通滤波器，文章用了一个高斯模糊核实现，                                           L                                     f                            r                            e                            q                                              \mathcal{L}_{freq}                Lfreq 表现频域的 loss。
Overall Loss

整体的 loss 情势为：
                                                                                    L                                  =                                                 L                                                    I                                        n                                        v                                                             +                                                 L                                                    F                                        o                                        r                                                             +                                                 L                                                    F                                        B                                        C                                                             +                                  λ                                                 L                                                    N                                        R                                        R                                                                                                    (7)                                                    \mathcal{L} = \mathcal{L}_{Inv} + \mathcal{L}_{For} + \mathcal{L}_{FBC} + \lambda \mathcal{L}_{NRR} \tag{7}                   L=LInv+LFor+LFBC+λLNRR(7)
其中                                           L                                     N                            R                            R                                              \mathcal{L}_{NRR}                LNRR 是附加的中性渲染正则化项，                                  λ                            \lambda                λ 是它的均衡权重。当中性渲染正则化在装备感知嵌入被给定为零向量时，引导模子学习一个在 XYZ 和 sRGB 色彩空间之间执行标准色彩转换的虚拟相机。
                                                                                                   L                                                    N                                        R                                        R                                                             =                                                                ∥                                        s                                        (                                                          I                                           a                                                       )                                        −                                        g                                        (                                                          I                                           a                                                       ,                                        0                                        )                                        ∥                                                    1                                                 +                                                                ∥                                                          s                                                             −                                              1                                                                         (                                                          L                                           a                                                       )                                        −                                        h                                        (                                                          L                                           a                                                       ,                                        0                                        )                                        ∥                                                    1                                                                                        (8)                                                    \mathcal{L}_{NRR} = \left \| s(I_a) - g(I_a, \mathbf{0}) \right \|_1 + \left \| s^{-1}(L_a) - h(L_a, \mathbf{0}) \right \|_1 \tag{8}                   LNRR=∥s(Ia)−g(Ia,0)∥1+             s−1(La)−h(La,0)             1(8)
                                 s                      (                      ⋅                      )                      ,                                  s                                     −                            1                                           (                      ⋅                      )                            s(\cdot), s^{-1}(\cdot)                s(⋅),s−1(⋅) 分别表现 sRGB-XYZ 和 XYZ-sRGB 之间的色彩空间转换。如果用户想要增强或减弱某台相机的摄影风格，而不与另一台相机的装备感知嵌入举行内插或外推操纵，中性渲染正则化会为用户提供一个锚点。
Novel Dataset

尽管现有的 sRGB - RAW 数据集允许对逆向和正向 ISP 任务举行模子训练，但仍然需要包罗由多个装备同步拍摄的 sRGB - RAW 对的数据集。这类数据集对于训练可以或许有效处理惩罚跨相机 ISP 任务的模子至关紧张，而跨相机 ISP 任务对于诸如摄影外观转换和内插 / 外推等应用来说是至关紧张的。
为应对这一挑战，我们网络了一个名为 FiveCam 的新数据集，其特点是包罗来自五种不同相机型号同步拍摄的 sRGB - RAW 对。该数据集包罗 2464 张高分辨率（4K）的原始图像和 JPEG 图像，代表了约莫 500 个不同的场景。FiveCam 数据会合使用的相机包括苹果 iPhone 14 Pro Max、谷歌 Pixel 6 Pro、华为 P40、三星 Galaxy S20 和小米 Mi 12。所有相机都通过编程的蓝牙快门举行同步，以确保所有装备的拍摄时间同等。
图 4 展示了与其所使用的拍摄装备一同呈现的三个场景。我们的 FiveCam 数据集场景丰富多样，在多种光照条件下（从白昼到夜间环境，包括室外和室内光照）拍摄了自然景观和城市环境。
此外，我们还创建了这个数据集的 sRGB - XYZ 版本，其中所有相机的原始图像都使用拍摄时的白均衡、线性去马赛克算法举行处理惩罚，并转换为标准的相机 - 到 - XYZ 色彩空间。这个版本中的 XYZ 图像保持了线性，这使得它们对于需要保持原始图像线性的下游任务特别有益。

图 4 我们新数据会合 3 个场景的预览（左图）以及我们的拍摄装备（右图）。每个场景都包罗来自五款智能手机相机的同步 sRGB（标准红绿蓝）-Raw（原始）图像对：苹果 iPhone 14 Pro Max、谷歌 Pixel 6 Pro、华为 P40、三星 Galaxy S20 以及小米 Mi 12。这里将原始图像可视化为 XYZ 图像，并且可以无损地转换回原始格式。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)