Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之 ...

打印 上一主题 下一主题

主题 882|帖子 882|积分 2646

Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解

一、简介

2021年5月,OpenAI发表了《扩散模型逾越GANs》的文章,标志着扩散模型(Diffusion Models,DM)在图像生成领域开始逾越传统的GAN模型,进一步推动了DM的应用。
然而,早期的DM直接作用于像素空间,这意味着要优化一个强大的DM通常必要数百个GPU天,而推理本钱也很高,因为必要多次迭代。为了在有效的计算资源上练习DM,并保持其质量和机动性,作者提出将DM应用于强大的预练习自动编码器的潜空间(Latent Space),这也是为什么提出的模型叫LDM的缘故起因。与以往的方法相比,这种方式首次实现了在降低复杂性和保留细节之间的平衡,并显著进步了视觉传神度。
别的,作者还在模型中引入了交叉留意力层,使得可以轻松地将文本、界限框等条件引入到模型中,将DM转化为强大而机动的生成器,实现高分辨率的生成。作者提出的LDM模型在图像修复、条件生成等使命中表现良好,并且与基于像素空间的扩散模型相比,大大降低了计算要求。在Stable Diffusion(LDM)的底子上,SDXL将U-Net主干扩大了三倍:重要是利用了第二个文本编码器,因此还利用了更多的留意力块和交叉留意力上下文。别的,作者设计了多分辨率练习方案,练习了具有差别长宽比的图像。他们还引入了一个细化模型,以进一步进步生成图像的视觉传神度。效果表明,与之前的Stable Diffusion版本相比,SDXL的性能有了显著提拔,并且取得了与其他非开源模型相称的效果。这个模型和代码都是完全开源的。
在SDXL的底子上,作者提出了对抗性扩散蒸馏技术(Adversarial Diffusion Distillation,ADD),将扩散模型的步数淘汰到1-4步,同时保持很高的图像质量。效果表明,这个模型在1步生成方面明显优于现有的几步生成方法,并且仅用4步就逾越了最先辈的SDXL性能。这个练习出的模型被称为SDXL-Turbo。
二、 Latent Diffusion Model(LDM)

LDM 和其他扩散生成模型的结构雷同,其结构包罗自编码器、条件部门和降噪 U-Net,总体上包罗三个重要组件:
1. 自编码器(Auto Encoder)

2.条件部门(Conditioning)

3. 降噪 U-Net(Denoising U-Net)


在AutoEncoder中,Encoder用于对图像举行压缩,生成latent code。假设输入图像的分辨率为HxW,则压缩率为f时,对应的latent code大小为H/f x W/f。举例来说,如果图像分辨率为512x512,那么f=4时的压缩率对应的latent code大小为64x64,即z的大小为64x64。
作者举行了一系列实验,探究差别压缩率下的模型性能,对应的模型命名为LDM-{f},包罗LDM-1、LDM-2、LDM-4、LDM-8、LDM-16和LDM-32。在这个命名规则下,LDM-1相称于没有压缩,直接作用于像素空间;而LDM-32则是压缩率最高的情况,512x512分辨率的图像对应的latent code大小只有16x16。
实验效果显示,在压缩率为4、8和16时,模型获得了最佳平衡点,这意味着在生成图像质量和模型复杂度之间找到了一个符合的折中点。然而,当压缩率为32时,生成图像的质量下降,这可能是因为压缩率太高,导致信息丢失,latent code无法捕捉到足够多的图像信息,从而影响了生成图像的质量。

如下图 Table 6 所示,作者同样在图像修复使命上验证了差别压缩率、Cross Attention 的影响,可以看出 LDM-4 的练习、推理吞吐相比 LDM-1 有明显提拔,并且 Attention 对吞吐的影响也不大。同时 LDM-4 还获得更好的效果(更低的 FID):

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

铁佛

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表