ACM MM24 | Hi3D: 3D天生领域再突破!新视角天生和高分辨率天生双SOTA(复旦 ...

愛在花開的季節  论坛元老 | 2024-9-26 10:27:58 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1035|帖子 1035|积分 3105

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x

文章链接:https://arxiv.org/pdf/2409.07452
Github 链接:https://github.com/yanghb22-fdu/Hi3D-Official
   亮点直击
  

  • 本文提出了高分辨率图像到3D模子(Hi3D),这是一种基于视频扩散的新范式,将单个图像重新界说为多视角图像,作为3D感知的序列图像天生(即轨道视频天生)。该方法深入探究了视频扩散模子中潜在的时间同等性知识,这些知识在3D天生中可以或许很好地推广到多个视角之间的几何同等性。
  • 提出了基于视频扩散模子的图像到3D天生方法,通过使用视频扩散模子的时间同等性来加强3D几何同等性。
  • 提出了高分辨率图像到3D模子(Hi3D),在两阶段中天生高分辨率的3D网格和纹理:首老师成低分辨率轨道视频,然后通过3D感知精化器天生高分辨率视频。
  • 在新视角合成和单视角重建任务中表现出色,实现了高质量的3D网格和纹理。
  总结速览

办理的问题

Hi3D框架旨在办理从高分辨率图像天生3D模子时面临的寻衅,特殊是如何在多个视角之间保持几何同等性和高质量的纹理细节。传统方法往往在天生多视角图像时缺乏时间同等性,导致天生的3D内容在视觉上不连贯。
提出的方案

Hi3D提出了一种基于视频扩散的新范式,通过将单个图像重新界说为多视角图像,形成一个序列图像天生的过程(即轨道视频天生)。该方案使用3D感知先验(如相机姿态条件)来加强预练习的视频扩散模子,从而天生低分辨率的多视角图像。接着,使用学习到的3D感知视频到视频的细化器进一步提拔这些图像的分辨率和细节。
应用的技术

视频扩散模子:用于天生多视角图像,特殊关注时间同等性。 3D感知先验:通过相机姿态条件加强模子的天生本领。 3D高斯点云:用于进一步加强天生的多视角图像,以便进行高保真网格重建。
达到的结果

实验结果表明,Hi3D可以或许天生具有高度详细纹理的优越多视角同等图像。大量关于新视图合成和单视图重建的实验验证了该方法在天生高保真3D模子方面的有用性,显著提拔了天生内容的几何同等性和视觉质量。
方法

本文计划了一种新的高分辨率图像到3D天生架构,称为Hi3D,创新性地将视频扩散模子整合到3D感知的360°序列图像天生中(即轨道视频天生)。 本文的出发点是使用视频扩散模子中固有的时间同等性知识,以加强3D天生中的视角同等性。首先在本节中详细论述图像到3D天生的问题表述,再详细先容Hi3D框架中两阶段视频扩散范式的细节。
第一阶段,本文重新构建了预练习的图像到视频扩散模子,增加了相机姿态的条件,然后在3D数据上进行微调,以实现轨道视频天生。在第二阶段,本文通过3D感知的视频到视频细化器进一步提拔多视角图像的分辨率。最后,本文引入了一种新颖的3D重建 pipeline,从这些高分辨率的多视角图像中提取高质量的3D网格。Hi3D的团体架构如下图2所示。


问题表述

给定一张 RGB 图像 (源视图),目标是天生其对应的 3D 内容(即,纹理三角网格)。与之前的图像到 3D 天生方法类似,分解为两个步调:

  • 天生围绕物体 的多视角图像序列。
  • 从这些天生的多视角图像重建 3D 内容。
在技术上,首先以两阶段的方式,从与输入条件图像 对应的 个不同摄像机姿态 合成物体的多视角图像序列 。在本工作中,天生 张高分辨率的多视角图像,分辨率为 。值得留意的是,之前的开始进的图像到 3D 模子只能天生低分辨率(即 )的多视角图像。相比之下,据本文所知,本文的工作是首个实现高分辨率(即 )图像到 3D 天生的研究,这可以保留输入图像更丰富的几何和纹理细节。
通过经心计划的 3D 重建 pipeline,从这些合成的高分辨率多视角图像中提取 3D 网格。由于天生的视图数量相对有限,因此从这些希罕视图中提取高质量网格是困难的。为了办理这个问题,本文使用新颖的视图合成方法(3D 高斯喷溅从多视角图像 重建隐式 3D 模子。然后,本文在多视角图像之间渲染额外的插值视图 ,并将这些渲染的视图添加到 中,从而获得物体 的稠密视图图像 。最后,采用基于 SDF 的重建方法从这些稠密视图 中提取高质量网格。
第一阶段:基本多视图天生

之前的图像到3D天生方法通常依赖于预练习的图像扩散模子来实现多视图天生。这些方法通常通过注入多视图交织留意力层,将图像扩散模子中的2D UNet扩展为3D UNet。这些新增的留意力层在3D数据集上从头开始练习,以学习多视图同等性。然而,为了确保练习的稳固性,这些方法中的图像分辨率被限定在256×256。正如Zero123所指出的,保持预练习图像扩散模子中的原始分辨率(512×512)会导致收敛速度变慢和方差增加。因此,由于这种低分辨率限定,这些方法无法完全捕获输入2D图像中的丰富3D几何和纹理细节。
此外,研究者们观察到这些方法仍旧存在多视图不同等的问题,特殊是对于复杂物体的几何形状。这可能是因为底层预练习的2D扩散模子仅在单个2D图像上练习,缺乏对多视图相关性的3D建模。为了办理上述问题,将单张图像到多视图图像重新界说为3D感知序列图像天生(即轨道视频天生),并使用预练习的视频扩散模子实现这一目标。特殊是,重新使用Stable Video Diffusion (SVD) 从输入图像天生多视图图像。SVD的吸引力在于它在大量不同的视频上进行了练习,使网络在练习期间可以或许遇到物体的多个视图。这可能缓解了3D数据稀缺问题。此外,SVD已经通过时间留意力层明白建模了多帧关系。我们可以继续这些时间层中固有的多帧同等性知识,以追求3D天生中的多视图同等性。
练习数据。 首先从Objaverse的LVIS子集中构建一个高分辨率多视图图像数据集。对于每个3D资产,以1,024 × 1,024的分辨率在随机仰角 下渲染16个视图。需要留意的是,虽然仰角是随机选择的,但在单个视频中的全部视图中保持不变。对于每个视频,相机与物体的间隔为 ,并在方位角从 到 均匀分布。练习数据集统共包含大约300,000个视频,记为 ,其中输入条件图像 是序列图像 的第一帧。
视频扩散微调 ,在第一阶段,重新使用预练习的图像到视频扩散模子,以天生多视角同等的顺序图像。因此,前述的多视角图像数据集 被用来对具有额外相机姿态条件的3D感知视频扩散模子进行微调。具体而言,给定输入的单视角图像 ,首先通过视频扩散模子的VAE编码器将其投影到潜在空间,并与噪声潜在序列在通道上进行拼接,这鼓励合成的多视角图像保留输入图像的身份和复杂细节。此外,通过交织留意力机制将输入条件图像的CLIP embedding并入扩散UNet。在每个 transformer 块中,CLIP embedding 矩阵作为交织留意力层的键和值,而层的特征则作为查询。
通过这种方式,输入图像的高层语义信息被通报到视频扩散模子中。由于多视角图像序列是在随机高度下渲染的,将高度参数作为额外条件输入到视频扩散模子中。相机高度角 首先被嵌入到到正弦位置 embeddings中,然后与扩散噪声时间步 一起输入到UNet中。由于全部多视角序列遵循相同的方位轨迹,本文不将方位参数输入到扩散模子中。在这里,本文省略了视频扩散模子中的原始“fps id”和“活动桶id”条件,因为这些条件与多视角图像天生无关。
改造后的视频扩散模子中的去噪神经网络(3D UNet)可以表示为 。给定多视角图像序列 ,预练习的VAE编码器 首先提取每幅图像的潜在编码,以构成潜在编码序列 。接下来,通过在每个时间步 采用典型的前向扩散过程,将高斯噪声 添加到 中,以获得噪声潜在编码 。具有参数 的3D UNet 被练习以基于噪声潜在编码 、输入图像条件 和高度角 估计添加的噪声 ,通过标准的均方误差(MSE)损失进行练习:


是一个对应的权重因子。本文并没有直接在高分辨率(即 1024 × 1024)下练习去噪神经网络,而是以粗到细的方式将这个复杂的问题分解为更稳固的子问题。在第一阶段,使用公式 (4) 在 512 × 512 分辨率下练习去噪神经网络,以天生低分辨率的多视角图像。第二阶段则进一步将 512 × 512 的多视角图像转换为高分辨率(1024 × 1024)的多视角图像。
第 2 阶段:3D 感知多视图细化

阶段一输出的 512 × 512 多视角图像展现了良好的多视角同等性,但仍未能完全捕获输入的几何和纹理细节。为了办理这个问题,增加了一个额外的阶段,通过新的 3D 感知视频到视频的精细化器,进一步放大第一阶段的低分辨率输出,从而天生更高分辨率(即 1024 × 1024)的多视角图像,具有更精细的 3D 细节和同等性。
在这一阶段,还将预练习的视频扩散模子重塑为 3D 感知的视频到视频精细化器。形式上,这种去噪神经网络可以表示为 ,其中 表示与第一阶段输入图像 对应天生的多视角图像, 是天生的多视角图像 的估计深度序列。为了明白,输入条件 和 以与第一阶段相同的方式注入到预练习的视频扩散模子中。此外,本文采用 VAE 编码器提取预天生多视角图像 的潜在编码序列,并将其与噪声潜在变量 在通道维度上毗连起来。
此外,为了充分使用天生的多视角图像的潜在几何信息,本文使用现成的深度估计模子来估计 中每幅图像的深度作为 3D 线索,从而天生深度图序列 。然后,本文将深度图直接调解为与潜在编码 相同的分辨率,并在通道维度上将其与 毗连。
最后,重塑后的去噪神经网络通过扩散模子中的标准均方误差(MSE)损失进行练习:


这里 是一个加权因子。练习图像的分辨率在公式 (5) 中被放大到 1024 × 1024。
在练习过程中,采用了一些图像降质方法来合成 以进行数据加强,而不光仅使用第一阶段天生的粗糙多视角图像。具体来说,本文使用高阶降质模子来合成练习数据,包罗一系列模糊、调解大小、噪声和压缩过程。
为了复制超调伪影(例如,图像中锐利过渡处的振铃或重影),使用了 滤波器。此外,还使用随机遮罩技术来模拟形状变形的结果。这样不光加快了练习过程,还加强了本文视频到视频的细化器的鲁棒性。
3D 网格提取

通过上述两阶段视频扩散基础范式,本文可以获得一个高分辨率图像序列 (),该序列以输入图像 为条件。本节旨在从这些天生的高分辨率多视角图像中提取高质量的网格。之前的图像到 3D 方法通常通过优化神经隐式符号间隔场(SDF)来重建目标 3D 网格。然而,这些基于 SDF 的重建方法最初是为在真实世界中捕获的密集图像序列量身定制的,通常无法仅基于希罕视图重建出高质量的网格。
为了办理这个问题,研究者们计划了一种独特的高分辨率希罕视图 3D 重建pipeline。并不直接采用基于 SDF 的重建方法来提取 3D 网格,而是首先使用 3D 高斯喷溅(3DGS)算法从天生的高分辨率图像序列中学习一个隐式 3D 模子。3DGS 在新视角合成本领和渲染速度方面表现出色。在这里,本文试图使用 3DGS 的隐式重建本领,为第二阶段的输出希罕多视角图像提供更多的新视角。具体来说,本文从重建的 3DGS 中渲染 个相邻图像之间的插值视图 。最后,本文基于加强后的密集视图 优化一个基于 SDF 的重建方法,以提取物体 的高质量 3D 网格。
实验

实验设置

数据集与评估。 通过在两个主要任务上进行实验来实证验证本文的Hi3D模子的优越性,即新视图合成和单视图重建。在Google扫描物体(GSO)数据集上进行定量评估。在新视图合成任务中,采用三种常用指标:PSNR、SSIM 和LPIPS。在单视图重建任务中,使用Chamfer间隔和体积IoU来衡量重建3D模子的质量。此外,为了评估本文Hi3D的泛化本领,对来自互联网的各种风格的单幅图像进行了定性评估。
实现细节。 在基本多视图天生的第一阶段,将视频数据集缩放为512 × 512的视频。在多视图精细化的第二阶段,不光使用第一阶段的输出,还采用合成数据天生策略(类似于传统的图像/视频恢复方法进行数据加强。该策略旨在加快练习过程并加强模子的鲁棒性。团体实验在八个80G A100 GPU上进行。具体来说,第一阶段经历了80,000个练习步调(大约3天),学习率为1 × 10⁻⁵,总批量大小为16。第二阶段包含20,000个练习步调(约3天),学习率为5 × 10⁻⁵,批量大小减少为8。
对比方法。 本文将Hi3D与以下开始进的方法进行比较:RealFusion和Magic123使用2D扩散模子(Stable Diffusion)和SDS损失从单视图图像重建。Zero123学习从不同视角天生同一物体的新视图图像,并可以与SDS损失结合进行3D重建。Zero123-XL和Stable-Zero123通过提高练习数据质量进一步升级Zero123。One-2-3-45通过多视图图像(即Zero123的输出)直接学习显式3D表示,使用3D有符号间隔函数(SDFs)。Point-E和Shap-E在一个广泛的内部OpenAI 3D数据集上进行预练习,从而可以或许直接将单视图图像转换为3D点云或以MLP编码的形状。SyncDreamer引入了3D全局特征体积以保持多视图同等性。Wonder3D和EpiDiff使用3D留意力机制,通过交织留意力层使多视图图像之间可以或许相互作用。值得留意的是,在新视图合成任务中,本文仅包含部分基线(即Zero123系列、SyncDreamer、EpiDiff),以便与本文的Hi3D进行公平比较。
新颖的视图合成

下表1总结了新视图合成任务的性能比较,下图3展示了在两种不同视图下的定性结果。Hi3D在性能上始终优于现有的基于2D扩散的方法。具体来说,Hi3D的PSNR达到了24.26%,比最佳竞争对手EpiDiff高出3.77%。Hi3D的最高图像质量得分突显了视频扩散基于范式的关键上风,即使用3D先验知识来提拔新视图合成的结果。




由于图像独立翻译,Zero123系列(例如,Stable-Zero123)未能实现多视图同等性结果(例如,上图3(a)中闹钟头部在不同视图下的一/两个环)。SyncDreamer和EpiDiff通过使用3D中心信息或使用多视图留意机制进一步加强了多视图同等性。然而,由于受到限定的低图像分辨率(256×256),它们的新视图结果仍旧存在模糊和不真实的问题(例如,上图3(a)中模糊的闹钟数字)。相反,通过挖掘3D先验并通过视频扩散模子提拔多视图图像分辨率,本文的Hi3D乐成天生了多视图同等且高分辨率的1024×1024图像,从而实现了最高的图像质量(例如,上图3(a)中清楚可见的闹钟数字)。
单视图重建

下表2中评估了Hi3D的单视图重建性能。此外,下图4展示了Hi3D与现有方法的定性比较。总体而言,Hi3D在两个指标上均优于开始进的方法。One-2-3-45直接使用Zero123的多视图输出进行重建,但其3D同等性较差,通常导致天生的网格过于平滑,细节较少。Stable-Zero123通过使用更高质量的练习数据进一步提高了3D同等性,但仍旧存在缺失或过于平滑的网格问题。与Zero123中的独立图像翻译不同,SyncDreamer、EpiDiff和Wonder3D通过2D扩散模子同时进行多视图图像翻译,从而实现了更好的3D同等性。然而,由于低分辨率多视图图像的限定,它们在重建复杂的3D网格和丰富细节方面仍旧面临寻衅。相比之下,Hi3D充分发挥了预练习视频扩散模子中固有的3D先验知识,并将多视图图像提拔到更高的分辨率。这种计划使得3D网格重建的质量更高,细节更丰富(例如,下图4中鸟和企鹅的脚部)。




消融研究

3D感知多视图优化阶段的结果。 在这里检查第二阶段(即3D感知多视图优化)对新视图合成的有用性。下表3详细列出了Hi3D的消融实验结果。具体而言,第二行去除了整个第二阶段,性能大幅降落。这验证了通过3D感知视频到视频的优化器提拔多视图图像分辨率的有用性。此外,当仅去除第二阶段中的深度条件(第三行)时,性能明显降落,这表明深度条件在加强多视图图像之间的3D几何同等性方面的有用性。


3D重建中插值视图数量的影响。 下表4显示了使用不同数量的插值视图
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

愛在花開的季節

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表