嚴華 发表于 2024-10-12 19:07:02

【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型

提示:文章写完后,目次可以主动生成,如何生成可参考右边的资助文档


前言

二维的图像生成已经愈来愈趋近成熟,三维空间内的内容生成比年来得到广泛的关注,3D生成使命也面临着更大的挑战。
本文围绕comfyui,整理记录了近两年来最新的图生3D模型,如有错误缺失,还请大家斧正。
一、Stable Video 3D(sv3d)

SV3D具有两个版本:SV3D_u和SV3D_p。SV3D_u基于单张图像生成轨道视频,而SV3D_p则扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。
长处:机动高效、可拓展性强(影视制作、游戏开辟、工业设计)。
需留意:输入图片的质量对效果影响很大,需要选择高质量的图片输入;生成速率较慢,需要肯定的盘算资源。
二、TripoSR

论文:https://www.semanticscholar.org/paper/TripoSR%3A-Fast-3D-Object-Reconstruction-from-a-Image-Tochilkin-Pankratz/4299b79ef41601cf6e3e0603f7216d72b6d1315f
源代码:VAST-AI-Research/TripoSR (github.com)
TripoSR的设计基于LRM,利用 Transformer 架构,专为单图像 3D 重建而设计。 它采用单个 RGB 图像作为输入,并输出图像中对象的 3D 表示。
TripoSR 的核心包罗以下组件:图像编码器、图像到三平面解码器和基于三平面的神经辐射场 (NeRF)。
优劣:制作服从高、响应速率快,生成质量一般。
三、LRM系列

1.LRM

论文:2311.04400 (arxiv.org)
LRM方法采用基于transformer的编码器-解码器架构,以数据驱动的方式从单个图像中获取3D对象表示。
LRM使用预训练的视觉转换器DINO作为图像编码器来生成图像特性。随后,该算法学习图像到三平面转换器解码器,通过交叉留意力将二维图像特性投射到三维三平面上,通过自留意力有效地模拟空间布局三平面补丁之间的关系。
2.GS-LRM

论文:https://www.semanticscholar.org/paper/GS-LRM%3A-Large-Reconstruction-Model-for-3D-Gaussian-Zhang-Bi/8ed0477f640fa3a2d5411155e445d13752821629
GS-LRM模型采用了一个简单的基于transformer的架构,包罗将输入姿态图像分块,通过一系列的transformer块通报拼接的多视图图像标记,并从这些标记中直接解码最终的逐像素高斯参数进行可微分渲染。与只能重建对象的先前的LRM不同,通过预测逐像素高斯,GS-LRM可以自然地处理标准大、复杂度高的场景,响应速率更快、质量更高。
3.OpenLRM

源代码:3DTopia/OpenLRM: An open-source impl. of Large Reconstruction Models (github.com)
OpenLRM基于LRM,利用高效的记忆优化留意力机制(基于xFormers),结合DINOv2编码器的强大功能,实现了在大规模数据集(如Objaverse和MVImgNet)上的训练,能够处理高维度特性映射。
四、CRM

论文:https://www.semanticscholar.org/reader/2177967931f395f88faa630019e3cd9b1831ffc1
源代码:thu-ml/CRM: Single Image to 3D Textured Mesh in 10 seconds with Convolutional Reconstruction Model. (github.com)
Comfyui安装:flowtyone/ComfyUI-Flowty-CRM:这是一个自界说节点,可让您直接从 ComfyUI 使用卷积重建模型。 (github.com)
CRM强调了将几何先验知识整合到网络设计中的必要性,其创建在关键观察的基础上,首先,它从单个输入图像生成六张正射视图图像,然后将这些图像馈送到卷积U-Net中,利用其强大的像素级对齐能力和可观的带宽来创建高分辨率的3d视图。
五、LGM

论文:https://arxiv.org/abs/2402.05054
源代码:https://github.com/3DTopia/LGM
从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型。
六、Unique3D

论文:https://www.semanticscholar.org/paper/Unique3D%3A-High-Quality-and-Efficient-3D-Mesh-from-a-Wu-Liu/dac2d86182abcc25ad66ec1a73646ca06087772f
源代码:AiuniAI/Unique3D: Official implementation of Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image (github.com)
Comfyui安装:jtydhr88/ComfyUI-Unique3D: ComfyUI Unique3D is custom nodes that running AiuniAI/Unique3D into ComfyUI (github.com)
2024年六月清华大学开源:单张图片→3D模型转换框架,结合多视图扩散模型和法线扩散模型,采用多级上采样方法、ISOMER网格重建算法,效果优于CRM、OpenLRM等模型。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型