魏晓东 发表于 2024-8-29 19:40:34

Stable Diffusion详解

前言

 Stable Diffusion在图像生成方面取得了很大的成功,其核心原理是LDM(Latent Diffusion Models),在论文《High-Resolution Image Synthesis with Latent Diffusion Models》中被提出,使用潜在扩散模型举行高分辨率图像生成,发表在CVPR2022上。LDM作者和VQGAN的作者类似。接下来对LDM这篇论文举行详细介绍。
一、LDM原理

 Diffusion Model(DM)的练习和推理速度太慢,需要占用大量的盘算资源。因此LDM想办理的就是在不降低DM的图像生成能力的基础上降低盘算量。
https://i-blog.csdnimg.cn/direct/af46fa86295b4100a238fb2afd6886c2.png
 论文中总结到,对于基于最大似然的模型,练习可以分为两部分,先是举行感知压缩(perceptual compression),然后举行语义压缩(semantic compression)。(图像感知指的是图像的细节,图像语义指的是图像的主体是什么)。对于DM来说,在举行图像生成的时候,在前面的步骤中先是举行图像的语义生成,也就是确定图像的内容大概是什么东西,接下来的很多步骤都是举行图像的感知生成,也就是负责图像的细节生成。由于DM是在像素层面举行生成,所以盘算量很大,而且DM的很多盘算量都集中在图像的感知(细节)生成方面。
 基于此LDM的目标就是想让DM只负责图像语义方面,而图像的感知(细节)方面交给其他的模型去负责。也就是让DM在潜在空间上去练习和推理。
二、模型布局

https://i-blog.csdnimg.cn/direct/ae1843b24b904203a5b137e34c823f35.png
 LDM的模型布局如上图所示。其主体是由自编码器部分(粉色)、DM部分(绿色)以及条件机制(灰色)三部分组成。在举行图像生成时,起首使用DM举行扩散得到具有语义信息的特征图,然后使用自编码器的解码器举行图像的感知生成得到最终的图片。
 这样做有三个利益:1.DM在低维潜在空间举行扩散,盘算量减少。2.使用了DM中的UNet模型的归纳偏置,这使得模型可以得到图像的空间布局,不用像之前VQVAE,VQGAN对于输入图像的极致压缩而失去了图像原有的空间布局。3.得到了一个通用的压缩模型,其潜在空间可以用于练习多个生成模型。接下里对LDM的三个部分分别举行介绍。
图像感知压缩
 图像感知压缩模型(粉色部分)是基于之前的VQGAN工作,由自编码器组成,在练习时结合了感知损失和对抗损失,克制了只使用L1或L2损失引入的含糊现象。
 对于输入的图像,编码器将其举行编码变更到潜在空间,然后解码器在潜在空间重构图像。为了克制高方差分布的潜在空间,LDM引入了两种正则化。一种是KL正则化,一种是VQ正则化。(在VQGAN中通过将潜在空间举行离散化克制高方差,而LDM的潜在空间是连续的。)
 VQGAN在潜在空间举行自回归建模生成采样的时候,是使用的Transformer模型,相当于采样的是一维的序列,没有图片的空间布局。而LDM在潜在空间举行采样时,是由DM生成的具有归纳偏置的二维分布,具有空间特征布局。因此,LDM生成的图像更好的保存了细节部分。
 同时,VQGAN由于使用的是Transformer举行建模采样,受Transformer自身特性影响,其序列长度是一维的且不会很长,这就导致最后将一维序列Reshape成二维特征图的时候特征图尺寸不会很大,所以其采样是高度压缩的,自然生成的图像失去了很多细节。而LDM使用DM生成的本身就是具有归纳偏置的二维特征采样,所以具有生成结果好。
DM
 DM模型就是使用经典的DDPM模型,只不外扩散和采样从图像的像素空间转移到了潜在空间。对于DDPM的详细介绍可以看一下这篇博文:
DDPM详解
 通过在潜在空间练习DM,可以使DM集中于图片中重要的语义信息减少盘算量。
条件机制
 在举行条件生成时是在DM的UNet中使用cross-attention机制实现。为了对差别的模态举行处理,使用差别使用的专业编码器                                             τ                            θ                                       \tau_\theta                  τθ​(上图灰色部分)对条件举行编码得到                                             τ                            θ                                  (                         y                         )                              \tau_\theta(y)                  τθ​(y),然后将其输入到UNet中的cross-attention作交织注意力盘算。在举行条件生成的时候,LDM中的DM练习可以表示为下述公式:
https://i-blog.csdnimg.cn/direct/eb481e06c37a48fe9e99f7da0952e576.png
三、模型练习与推理

 LDM的练习与VQGAN一样是分为两部分。起首是先练习感知自编码器(粉色部分),接着在潜在空间上练习DM。
 在举行推理的时候,先使用DM在潜在空间举行采样得到特征图,然后将其给解码器举行最终的图片生成。
总结

 LDM通过在潜在空间举行DM练习采样,在没有降低图像生成质量的情况下大大进步了练习和推理速度,同时基于cross-attention条件机制,LDM与当时的SOTA方法相比取得了很好的结果。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Stable Diffusion详解