CVPR`24 | 又快又好!渲染速率比ENeRF快30倍!4K4D:及时4K分辨率4D视图合成 ...

瑞星  金牌会员 | 2024-8-30 16:01:01 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 533|帖子 533|积分 1599


文章链接:https://arxiv.org/pdf/2310.11448
git链接: https://zju3dv.github.io/4k4d/
本文旨在实现动态3D场景在4K分辨率下的高保真和及时视图合成。最近,一些动态视图合成方法在渲染质量方面表现出色。然而,在渲染高分辨率图像时,它们的速率仍然有限。为解决这个问题,本文提出了4K4D,一种支持硬件光栅化的4D点云表示,能够实现亘古未有的渲染速率。本文的表示基于4D特征网格构建,因此点云被自然地正则化并可以举行妥当优化。此外,计划了一种新颖的混合外观模型,显著提拔了渲染质量,同时保持了效率。此外,开发了一种可微分的深度剥离算法,以有用地从RGB视频中学习所提出的模型。实行表明,在使用RTX 4090 GPU的情况下,本文的表示在1080p分辨率下可以在DNA-Rendering数据集上以凌驾400 FPS的速率举行渲染,在4K分辨率下可以在ENeRF-Outdoor数据集上以80 FPS的速率举行渲染,比以往方法快30倍,并实现了开始进的渲染质量。


方法

给定捕获动态3D场景的多视角视频,目标是重建目标场景并及时实行新视角合成。为此,研究者们使用空间镌刻算法提取场景的粗点云,并创建基于点云的神经场景表示,该表示可以从输入视频中妥本地学习,并支持硬件加速渲染。
下图2展示了所提模型的概述。起首形貌如何基于点云和神经网络表示动态场景的几何和外观。然后,开发了一种可微分深度剥离算法,用于渲染表示,该算法由硬件光栅化器支持,从而显著提高了渲染速率。最后,讨论如安在输入RGB视频上优化所提模型。


使用点云建模动态场景

4D embedding。给定目标场景的粗点云,使用神经网络和特征网格来表示其动态几何和外观。具体而言,本文的方法起首界说了六个特征平面:θ、θ、θ、θ、θ和θ。为了在帧t中为任意点x分配一个特征向量f,采用K-Planes的计谋,使用这六个平面来建模一个4D特征场:


其中, 是输入点, 表示拼接运算符。更多实现细节请参考K-Planes。
几何模型。基于粗点云,动态场景几何通过学习每个点的三个条目来表示:位置 、半径 和密度 。使用这些点条目,盘算体渲染时与图像像素 u 对应的空间点 x 的体积密度。点的位置 被建模为一个可优化的向量。半径 r 和密度 通过将方程 (1) 中的特征向量 输入到 网络来预测。
外观模型。如上面图 2c 所示,使用图像混合技术和球谐函数 (SH) 模型来构建混合外观模型,其中图像混合技术表示离散的视角依赖外观 ,SH 模型表示连续的视角依赖外观 。对于帧 t 中的点 ,其在视角方向 下的颜色为:


其中,s 表示点 处的 系数。
离散的视角依赖外观 基于输入图像推理。具体而言,对于一个点 ,起首将其投影到输入图像中以检索相应的 RGB 颜色 。然后,为了混合输入的 RGB 颜色,根据点坐标和输入图像盘算相应的混合权重 。请注意,混合权重与视角方向无关。接下来,为了实现视角依赖结果,根据视角方向选择 N′ 个最近的输入视角。最后,颜色 盘算为 。由于 N′ 个输入视角是通过最近邻检索获得的,因此 cibr 在视角方向上不可制止地是离散的。为了实现连续的视角依赖结果,附加了由 SH 模型表示的精致级别颜色 ,如上面图 2c 所示。
在实践中,本文的方法通过将方程 (1) 中的点特征 传递到 网络来回归 系数 s。为了在图像混合模型 中预测混合权重 ,起首将点 投影到输入图像上以检索图像特征 ,然后将其与点特征 f 拼接,并将其输入到另一个 网络中以预测混合权重。图像特征 使用 2D CNN 网络提取。
讨论。本文的外观模型是实现动态场景的低存储、高保真和及时视图合成的关键。有三种替换方法来表示动态外观,但它们的表现无法与本文的模型相提并论。


  • 在每个点上界说显式 SH 系数,如在 3D 高斯分裂 中。当 SH 系数的维度较高且动态场景的点数目较大时,该模型的巨细可能太大,无法在消费级 GPU 上训练。
  • 基于 MLP 的 SH 模型。使用 MLP 来预测每个点的 SH 系数可以有用地减少模型巨细。然而,本文的实行发现基于 MLP 的 SH 模型难以渲染高质量图像。
  • 连续视角依赖的图像混合模型,如 ENeRF。使用图像混合模型表示外观比仅使用基于 MLP 的 SH 模型具有更好的渲染质量。然而,ENeRF 中的网络将视角方向作为输入,因此无法轻松预盘算,从而限制了推理期间的渲染速率。
与这三种方法相比,本文的外观模型联合了离散图像混合模型 和连续 SH 模型 。图像混合模型 提拔了渲染性能。此外,由于其网络不将视角方向作为输入,它支持预盘算。SH 模型 实现了任何视角方向的视角依赖结果。在训练期间,本文的模型使用网络表示场景外观,因此其模型巨细合理。在推理期间,预盘算网络输出以实实际时渲染。
可微分深度剥离

研究者们提出的动态场景表示可以使用深度剥离算法渲染成图像。得益于点云表示,能够利用硬件光栅化器显著加速深度剥离过程。此外,使这一渲染过程可微分也很容易,从而能够从输入的 RGB 视频中学习本文的模型。
研究者们开发了一个自界说着色器来实现包含 K 次渲染通道的深度剥离算法。考虑一个特定的图像像素 u。在第一次通道中,本文的方法起首使用硬件光栅化器将点云渲染到图像上,为像素 u 分配最近的点 。记点 的深度为 。随后,在第 k 次渲染通道中,所有深度值 小于上一通道记载深度 的点都被丢弃,从而得到像素 u 的第 k 近的点。丢弃较近的点在自界说着色器中实现,因此它仍然支持硬件光栅化。在 K 次渲染通道之后,像素 u 有一组排序的点 。
基于点 ,使用体渲染合成像素 u 的颜色。像素 u 的点 的密度是基于投影点和像素 u 在2D图像上的距离界说的。


其中, 是摄像机投影函数。 和 r 分别是点 的密度和半径。在训练过程中,使用 PyTorch实现投影函数,因此方程 (3) 自然是可微的。在推理过程中,利用硬件光栅化过程高效地获得距离 ,这通过 OpenGL 实现。
记点 的密度为 。像素 u 的体渲染颜色公式如下:


其中, 是点 的颜色,如方程 (2) 所述。
训练

给定渲染的像素颜色 ,将其与真实像素颜色 举行比力,以端到端的方式使用以下丧失函数来优化模型:


其中, 是图像像素的集合。除了均方误差丧失 外,还应用感知丧失 。


其中, 是感知函数(一个 VGG16 网络),I 和 分别是渲染和真实图像。感知丧失盘算从 VGG 模型提取的图像特征之间的差异。实行中表明,它有用地提高了渲染图像的感知质量。
为了规范,本文提出的表示优化过程,还额外应用mask监督到目标场景的动态地域。仅渲染动态地域的点云以获得它们的mask,其中像素值由以下公式得到:


mask丧失界说如下:


其中,表示渲染mask的像素集合,而 是2D动态地域的地面真实mask。这有用地通过将其限制在视觉外壳中,规范了动态地域几何优化的过程。
最终的丧失函数界说如下:


其中, 和 是控制对应丧失权重的超参数。
推理

训练完成后,采用几种加速技术来提拔模型的渲染速率。起首,在推理之前预先盘算点位置 p、半径 r、密度 、SH 系数 s 和颜色混合权重,这些数据存储在主内存中。在渲染过程中,这些属性被异步地流式传输到显卡上,通过重叠光栅化和内存复制来实现最优的渲染速率。应用这一技术后,运行时盘算仅包括深度剥离评估和球谐函数评估 (Eq.(2))。其次,将模型从32位浮点数转换为16位,以实现高效的内存访问,这提高了帧率约20,而且履历证没有可见的性能丧失,如表6所示。第三,不可微分深度剥离算法的渲染通道数 K 从15减少到12,同样提高了20 FPS 的速率,而视觉质量无变化。
实现细节

优化

4K4D 使用 PyTorch 框架举行训练。使用 Adam 优化器,学习率为 5e−3,通常在序列长度为 200 帧的情况下,模型会在约 800k 次迭代后收敛,这在单个 RTX 4090 GPU 上大约需要 24 小时。具体而言,点位置的学习率设置为,正则化丧失权重 λ和λ 设置为 1e−3。训练过程中,不可微分深度剥离的通道数 K 设置为 15,最近输入视图的数目 N′ 设置为 4。本文的方法的渲染速率是基于 RTX 3090 GPU 报告的,除非另有说明。
点云初始化

利用现有的多视角重建方法来初始化点云。对于动态地域,使用分割方法 在输入图像中获取它们的mask,并利用空间镌刻算法提取它们的粗略几何信息。对于静态配景地域,利用前景mask沿所有帧盘算配景像素的mask加权平均,天生不包含前景内容的配景图像。然后,在这些图像上训练一个 Instant-NGP模型,从中获取初始点云。初始化后,动态地域每帧通常包含约 250k 个点,静态配景地域通常包含约 300k 个点。
实行

数据集和评估指标

在多个广泛使用的多视角数据集上训练和评估本文的方法 4K4D,包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。


  • DNA-Rendering: 这个数据集使用 4K 和 2K 相机记载了动态人类和物体的 10 秒视频片断,帧率为 15 FPS,收罗了 60 个视角。由于录制了复杂的服装和快速移动的人物,这个数据集非常具有挑战性。在 DNA-Rendering 的 4 个序列上举行实行,其中将 90% 的视角作为训练集,其余作为评估集。
  • ENeRF-Outdoor: 这个数据集在室外环境中使用 1080p 相机以 30FPS 记载了多个动态人物和物体。选择了三个包含 6 个差别演员(每个序列选择了 2 个演员)的 100 帧序列来评估本文的方法 4K4D。这个数据集对于动态视角合成具有挑战性,因为同一个片断中不但有多个移动的人物和物体,而且由于人物的阴影,配景也是动态的。
遵循 Im4D 和 NeuralBody 的做法,在 DNA-Rendering 和 NHR 数据集上评估动态地域的指标,可以通过预界说人物的 3D 边界框并将其投影到图像上来获得。对于 ENeRF-Outdoor,联合训练前景的动态几何和外观以及配景的动态外观,以获得团体图像的渲染结果。所有图像在评估时都会按比例调整巨细,如果原始分辨率凌驾 2K,则缩放比例为 0.375。在实行中,DNA-Rendering 的渲染图像巨细为 1024×1224(和 1125×1536),ENeRF-Outdoor 的分辨率为 960×540。Neural3DV 视频和 NHR 的分辨率分别为 1352×1224 和 512×612(和 384×512)。
对比实行

对比结果 在 DNA-Rendering数据集上的定性和定量比力如下图5和表1所示。




从表 1 可以明显看出,本文的方法 4K4D 的渲染速率比当前开始进的及时动态视角合成方法ENeRF快30倍,而且在渲染质量上表现更优秀。即使与并行工作相比,本文的方法 4K4D 仍然实现了 13 倍的加速,而且能够产生一致性更高质量的图像。如图 5 所示,KPlanes无法规复高度具体的 4D 动态场景的外观和几何特征。其他基于图像的方法 能够产生高质量的外观结果。然而,它们每每在遮挡和边缘处产生模糊的结果,导致视觉质量的低落,最多能保持交互式帧率。相反,本文的方法 4K4D 可以以凌驾 200 FPS 的速率天生更高保真度的渲染结果。图 3 和表 2 提供了在 ENeRF-Outdoor数据集上的定性和定量结果。即使在具有多个演员和动态配景的挑战性 ENeRF-Outdoor 数据集上,本文的方法 4K4D 仍然能够取得显著更好的结果,同时以凌驾 140 FPS 的速率举行渲染。ENeRF在这个具有挑战性的数据集上产生模糊的结果,而 IBRNet的渲染结果在图像边缘处含有黑色伪影,如图 3 所示。K-Planse在重建动态人物和变化配景地域上失败。


消融研究

在 DNA-Rendering数据集的 150 帧序列 0013 01 上举行了消融研究。定性和定量结果如下图6和表4至表7所示。










4D embedding消融研究 "w/o f" 变体移除了提出的 4D embedding模块,并将其替换为每帧和每点可优化的位置、半径、密度和比例。如上面图 6 和表 4 所示,"w/o f" 变体在没有 4D embedding模块 的情况下产生模糊和噪声的几何结果,从而导致渲染质量的下降。
混合外观模型消融研究 "w/o " 变体移除了外观公式 Eq. (2) 中的 ,这不但导致规复的外观细节省少,还显著拦阻了几何质量。增加 SH 系数的额外度数并未导致显著的性能变化(PSNR 30.202 对比 30.328)。相比之下,本文提出的方法能够以更好的细节产生高保真度的渲染结果。
丧失函数消融研究 如表 4 所示,移除 项不但低落了感知质量(LPIPS 分数),还导致其他性能指标的低落。对于高度动态的 DNA-Rendering 数据集,遮罩丧失 Lmsk 有助于规范动态几何的优化过程。
存储分析 对于 150 帧序列 0013 01 场景,本文的方法 4K4D 的存储分析列在表 5 中。由于其显式表示,点位置 p 占据了模型尺寸的大部门。本文方法的最终存储成本每帧少于 2 MB,包括源视频。DNA-Rendering的输入图像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 编码器将所有输入图像的帧编码为视频,编码质量因子设置为 25。编码后,观察到 LPIPS 没有变化(0.040),SSIM 没有丧失(0.982),PSNR 只低落了 0.42%(31.990 对比 31.855),表明方法 4K4D 对于输入图像的视频编码具有鲁棒性。对于以视频形式编码的输入图像,基于图像的渲染的存储开销每帧仅为 0.419 MB,渲染质量险些没有变化。
作者预盘算了点云上的物理属性以实实际时渲染,每帧大约需要 2 秒。尽管预盘算的缓存尺寸较大(0013 01 的一帧为 200 MB),但这些预盘算的缓存仅驻留在主存储器中,并没有显式存储在磁盘上,这对今世个人电脑来说是可行的。这使得表示形式成为一种压缩形式,磁盘文件巨细较小(每帧 2 MB),但所包含的信息非常丰富(每帧 200 MB)。
渲染速率分析

本文引入了多种优化技术来加速方法 4K4D 的渲染速率,这些技术仅由研究者们提出的混合几何和外观表示方法实现。在上面表6中,分析了这些提议技术在 DNA-Rendering 数据集的 150 帧序列 0013 01 上的有用性和质量影响。
盘算的有用性
为了实实际时渲染,预盘算并缓存了所有点的位置 p、半径 r、密度 和 SH 系数 s,并存储在主存储器中。由于研究者们将外观表示分割为常数项 和视角相关项 ,还可以预盘算并缓存所有源图像的每帧权重 w 和颜色 。对于 DNA-Rendering数据集的 150 帧 60 视角场景的 0013 01,这些缓存每帧占据大约 200MB 主存储器。本文呢方法所实现的预盘算实现了 10 倍的速率提拔(Ours vs. “w/o Cache”)。
可微深度剥离 本文还与传统的基于 CUDA 的可微分点云渲染技术(PyTorch3D 提供的)举行比力,以验证提出的可微分深度剥离算法的有用性。本文提出的可微分深度剥离算法和 PyTorch3D的实现都使用了与 Eq. (4) 相同的体积渲染方程。如表 6 所示,本文的方法比基于 CUDA 的方法快了凌驾 7 倍。
其他加速技术


  • “w/o fp16” 变体使用原始的 32 位浮点数举行盘算。
  • “w/o K = 12” 变体在深度剥离算法中使用了 15 个渲染通道,与训练时相同。使用 16 位浮点数和 12 个渲染通道都可以实现 20FPS 的加速。
差别GPU和分辨率上的渲染速率 本文还报告了在差别硬件(RTX 3060、3090 和 4090)以及差别分辨率(720p、1080p 和 4K(2160p))上的渲染速率(见表 7)。这里报告的渲染速率包含了交互式 GUI 的开销(“w/ GUI”),因此略低于报告的速率。4K4D 即使在使用平凡硬件渲染 4K(2160p)图像时也能实实际时渲染,如表中所示。
结论与讨论

本文提出了一种基于神经点云的表示方法,称为4K4D,用于及时渲染4K分辨率的动态3D场景。在4D特征网格上构建了4K4D,以自然地规范化点,并开发了一种新颖的混合外观模型,用于高质量渲染。此外,本文开发了一种可微分深度剥离算法,利用硬件光栅化流水线有用优化和高效渲染所提出的模型。在实行中,展示了4K4D不但实现了开始进的渲染质量,而且在渲染速率上表现出了凌驾30倍的提拔(在RTX 3090上,1080p分辨率凌驾200FPS)。
然而,本文的方法仍然存在一些局限性。4K4D无法天生跨帧的点对应关系,这对于某些卑鄙任务至关告急。此外,4K4D的存储成本随视频帧数线性增加,因此在建模长体积视频时会面对困难。如何建模点对应关系和减少长视频的存储成本,可能是未来研究中的两个有趣问题。
参考文献

[1] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

瑞星

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表