2、Stable Diffusion

十念 · 2024-11-14 11:35:31

2、Stable Diffusion

Stable Diffusion 是一种高效的文本到图像天生模型，它使用扩散模型（Diffusion Model）技术将天然语言形貌转换为高质量的图像。其工作原理是通过反向扩散过程，逐渐将噪声引导到符合输入文本形貌的图像上。相比其他天生模型（如 GANs），扩散模型在训练稳定性和图像天生质量方面具有显著优势。
  Diffusion Model

Diffusion Model论文链接：Denoising Diffusion Probabilistic Models.
在介绍Stable Diffusion之前，必须先对Diffusion Model的原理有所相识，Stable Diffusion就是以Diffusion Model为基础举行构建，Diffusion Model（扩散模型） 是一种天生模型，近年来在图像天生任务中表现优异，尤其是在高质量图像天生方面，如 DALL·E 2 和 Stable Diffusion 等模型的基础就是扩散模型。其核心头脑是通过对数据添加噪声，然后逐步学习去噪的过程，从而天生新数据。
  本文只介绍他的大抵原理，至于为什么公式推导，可以查看Diffusion Model论文原文
  扩散模型的工作机制分为两个阶段：正向扩散过程 和 逆向去噪过程。

左边为正向扩散，右边为逆向去噪。在 Diffusion Model 中，逆向过程通常使用U-Net 神经网络来举行训练，该网络通过猜测输入噪声中的噪声身分，逐步将噪声图像转换为清晰的图像。同时，使用时间嵌入使模型能够处理不同时间步长的去噪任务，通过最小化噪声猜测的丧失函数，使模型在去噪过程中逐步恢复图像的细节。
正向扩散过程

在正向过程中，扩散模型对真实数据（如图像）逐步加入噪声，直到将数据变成完全的高斯噪声。这个过程可以通过一系列步调来模拟，逐步将原始数据扰动成噪声，正向扩散过程遵照预设的马尔可夫链规则。

逆向去噪过程

逆向过程是天生数据的关键，它从完全的噪声图像开始，逐步去除噪声，以恢复真实的高质量数据。模型在每一步猜测并去除噪声，逐渐重建出与训练数据相似的图像。这一步调雷同于学习一个去噪自编码器，通过模型学习每一步去噪操作，逆转噪声的扩散过程，最终天生雷同原始分布的数据。

此中，模型须要学习参数化的 μθ和 Σθ，即怎样从噪声数据逐渐还原出清晰的图像。现实上就是盘算方差和均值。
丧失函数

通常使用均方偏差（MSE）作为丧失函数，具体形式如下：

  这里，ϵ是添加的真实噪声，而 ϵθ是模型输出的噪声猜测。通过最小化该丧失，模型能够逐步学会怎样从噪声中恢复原始图像。
  图像直观解释

上面为正向扩散过程，下面为逆向去噪

Stable Diffusion

Stable Diffusion论文链接：High-Resolution Image Synthesis with Latent Diffusion Models
上文介绍了Diffusion Model，Stable Diffusion 正是在 Diffusion Model 的基础上举行了改进。简单来说，Stable Diffusion 在逆向去噪过程中，不光依靠于天生时的噪声信息，还能够引入更多的辅助信息来资助模型更好地举行逆向去噪。只要这些辅助信息能够被编码成固定维度，就可以融入逆向还原的过程中，从而提拔模型训练效果和天见效果的质量。
模型架构图

从图中可以看出，左边粉色的框中是U-Net 编码器-解码器结构，中间绿色框为噪声注入与去噪过程，右边为天生辅助信息的模块（本文使用CLIP），下面将分别解释各个结构的作用与细节。

U-Net 编码器-解码器结构

上图中左边粉色的框中是U-Net 编码器-解码器结构：

编码器：U-Net 结构的一部分，用于提取图像中的特征。编码器逐步将图像中的信息压缩成低维表示，并捕获多标准特征，这对于天生过程中的逐步去噪至关紧张。
解码器：U-Net 结构的另一部分，逐步还原图像。解码器通过多次跳跃毗连（skip connections）从编码器中获取不同层级的特征，并将噪声图像逐渐恢复为高质量图像。

噪声注入与去噪过程

中间绿色框为噪声注入与去噪过程：

正向扩散过程中，Stable Diffusion 将随机噪声逐渐添加到图像中，直到图像变成完全的噪声。
逆向扩散过程通过逐步去除噪声来重建图像，Stable Diffusion 使用 U-Net 结构和条件信息来猜测并执行去噪。与传统扩散模型不同，Stable Diffusion 在逆向去噪过程中引入了辅助信息（如文本或其他条件），使得去噪过程不光依靠于噪声，还能够根据条件输入天生目标效果。具体来说，U-Net 的每一层都应用了留意力机制，允许模型更加有效地捕获长距离依靠关系。在这个过程中，U-Net 使用图像本身天生查询（q），而使用辅助信息天生键（k）和值（v）。通过盘算 q 和 k之间的相似性，模型能够动态地加权和选择与当前特征相对应的值（v），从而实现对特征的天生和优化。这种机制加强了模型在天生图像时的表达能力，使其能更好地符合输入的条件。

  天生辅助信息的模块

论文中使用文本数据作为辅助数据举行辅助，那么就使用到将文本翻译成图像特征的模型。
  CLIP 是一个能够将图像和文本映射到相同特征空间中的模型。在 Stable Diffusion 中，CLIP 主要用于提供文本引导，即根据输入的文本形貌来天生符合语义的图像。CLIP 提供的文本和图像特征嵌入被整合到扩散模型的逆向去噪过程中，以确保天生的图像与输入文本形貌相符。
  加入了辅助信息，为什么可以使用和Diffusion Model一样的原理？

由上文中给出Diffusion Model的正向扩散和逆向去噪过程的公式证实，同样的加入辅助信息后，证实仍使用贝叶斯公式，只是加了一个辅助公式。
  在 Stable Diffusion 中，我们引入了条件信息 c（比方文本嵌入），以资助天生与特定条件相符的图像。在逆向去噪过程中，辅助信息的引入不会改变根本的推理逻辑。可以通过以下步调证实这一点：

引入条件信息

在逆向去噪的环境下，模型不光依靠于噪声图像 Xt，还依靠于条件信息 c。因此，逆向去噪的公式可以扩展为：

猜测均值与方差的条件化

在这个公式中，μθ和 Σθ 的盘算是条件化的，即它们不光依靠于当前的噪声图像 Xt，还依靠于辅助信息 c。比方，模型可以用 CLIP 提供的文本嵌入作为条件信息，来影响去噪的均值和方差的猜测。

保持逆向逻辑不变

尽管我们引入了辅助信息，逆向去噪的推理逻辑仍旧保持不变，因为模型的目标仍旧是最小化与真实数据分布的距离。丧失函数的形式可以写作：

这里 ϵθ 是模型猜测的噪声，依然使用均方偏差（MSE）来盘算模型输出与真实噪声之间的差别。

总结

因此，Stable Diffusion 在引入辅助信息的同时，可以仍旧使用与传统扩散模型相同的逆向去噪推理逻辑。这是因为辅助信息通过影响模型的均值和方差猜测来引导天生过程，而不改变天生的基础机制。模型依然在每个时间步上逐步去噪，通过保留原有的逆向逻辑，联合条件输入，从而天生符合条件的高质量图像。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

2、Stable Diffusion

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云