人工智能-深度解析Stable Diffusion模型原理：技能干货来袭

花瓣小跑 发表于 2025-4-4 07:01:02

深度解析Stable Diffusion模型原理：技能干货来袭

Stable Diffusion作为当下热门的AI图像生成模型，其原理值得深入探究。本文将带你了解其核心技能，包括变分自编码器、U-Net和文本编码器的协同工作，以及扩散和逆扩散过程怎样实现图像生成。通过剖析模型架构与训练机制，揭示它怎样低落盘算成本、提高生成稳定性，为AI图像创作开辟新道路。
一、整体框架

https://i-blog.csdnimg.cn/img_convert/4a1b884af1abf3e5ee848c228cdb2fb2.png
阶段1：用预训练生成的文本转向量模型将文本转成embedding向量，Bert, CLIP, chatGPT；
阶段2：用diffussion模型生成可解码的中间图， DDPM；
阶段3：用解码器生成最终的图片，VAE;
https://i-blog.csdnimg.cn/img_convert/cb6e660746803622d51b6d1824a30b2d.png
https://i-blog.csdnimg.cn/img_convert/62d7c97cb376753e0b6d85c582e6fae3.png
https://i-blog.csdnimg.cn/img_convert/ea59b8ef11ea546e98a73e405ca38559.png
二、DDPM算法框架

目前所采用的扩散模型多数是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models，和GAN相比，DDPM拟合的是加噪图片，并通过反向过程（去噪）生成原始图片。
https://i-blog.csdnimg.cn/img_convert/a79b1ede5afbc1e8e8fcb40c2d6ad058.png
https://i-blog.csdnimg.cn/img_convert/73ef79409dfbcc354b363559435cbbe4.png
三、亿点点数学原理

DDPM前向过程（扩散过程）

https://i-blog.csdnimg.cn/img_convert/609f3c78dbe2609863d90d168fd5ebaf.png
https://i-blog.csdnimg.cn/img_convert/3512412e13eb24d9746792b21742e926.png
https://i-blog.csdnimg.cn/img_convert/e70342b11863f76fe83569d824b5264c.png
https://i-blog.csdnimg.cn/img_convert/d32d98459d18cee8af7095ccb950ded7.png
【这个有什么用呢？？？反面会说，这里先留一个印象，用来做样本生成】
DDPM反向过程（去燥过程）

https://i-blog.csdnimg.cn/img_convert/f1c55d69a3c6935c5eb2260564f686e2.png
https://i-blog.csdnimg.cn/img_convert/6a052bd19dbd12f164612f3f272e52c2.png
https://i-blog.csdnimg.cn/img_convert/e95c0f80977bdb001d58879468710f1d.png
https://i-blog.csdnimg.cn/img_convert/ba91dacf70d2f857a0d36c66f257cdeb.png
https://i-blog.csdnimg.cn/img_convert/842d84123f3b405ba866fe84160dd102.png
** **

四、DDPM模型原理

https://i-blog.csdnimg.cn/img_convert/eb13ba3794a88b64437298d68286b43e.png
模型训练https://i-blog.csdnimg.cn/img_convert/3903c8d28153404a82c5c4977588d888.png

58.5亿张图片，随机采样某个时候的噪声，Unet模型预测该时候噪声，去拟合刚才采样出来的噪声
符合科学修仙第二定理：鼎力大肆出奇迹。
https://i-blog.csdnimg.cn/img_convert/1c0e795cb903ddcf5ff85c4c815832d0.png
图像生成https://i-blog.csdnimg.cn/img_convert/68b19362b75f031df4fbaaab2de29034.png

为什么方差的尾巴上要加上一个随机采样的 z, 很多实验（语音合成，推荐的dropout）添加随机扰动反而有神效，科学家也不知道为什么反正这么干有用。符合科学修仙第三定理：遇事不决，量子力学。
公式中得到了t-1的均值和方差，x又符合高斯分布，根据分布公式，均值是+前面，方差就是需要呈上z，其实并不是什么随机扰动。
https://i-blog.csdnimg.cn/img_convert/5149e178a88b141966e703a8df85cda9.png
扯这么多其实只需要记住两个公式：公式1用于采样，建模噪声；公式2根据预估的噪声生成图像；
https://i-blog.csdnimg.cn/img_convert/cf6d59a5c72f9c1e83cd8aa8a166d6e7.png
https://i-blog.csdnimg.cn/img_convert/319541d5680d9ca06176f4867dc8a265.png
https://i-blog.csdnimg.cn/img_convert/f1c55d69a3c6935c5eb2260564f686e2.png
https://i-blog.csdnimg.cn/img_convert/a318d9707105f06fc5db7b5faad598a5.png
五、笔墨生成图片

https://i-blog.csdnimg.cn/img_convert/3128701b6e6c491bde79391c2fbcc93b.png
Diffusion模型可以从恣意一个噪声点生成图片，文本作为条件项，用来束缚最终生成的图像
https://i-blog.csdnimg.cn/img_convert/4db7e5865392e4821eac0e04e1ba76d2.png
https://i-blog.csdnimg.cn/img_convert/066d034517a7b3161a4297cdd5ef9aa8.png
输入：T, 带噪音的图像向量，文本向量
输出：有文本的噪音向量，无文本的噪音向量, 噪音向量
重新整理：带噪音的图像向量 - 噪音 + T 向量
https://i-blog.csdnimg.cn/img_convert/39406694f317bf30e4dbe8ba5195ec16.png
**
**
回首一下Stable Diffusion 由三个部分构成：
文本编码器CLIP
主要负责将文本转换为U-Net可以理解的表征形式，从而引导U-Net进行扩散；
Difussio模型（U-Net 网络）
U-Net 是扩散模型的主干网络，其作用是对噪音进行预测，从而实现反向去噪过程；
VAE
其作用是将图像转换为低维表示形式，从而使得扩散过程是在这个低维表征中进行的，扩散完成之后，在通过VAE 解码器，将其解码成图片；
https://i-blog.csdnimg.cn/img_convert/1156881489f0e9f113fc187fcd0460f9.png
纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时间可以搞点实战案例来学习。
https://img-blog.csdnimg.cn/direct/373dd1f17ed14db1a2fa4dfec03c0559.png
这份完整版的AIGC全套学习资料已经上传CSDN，朋侪们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

https://i-blog.csdnimg.cn/direct/0f40ccb0d5b940b0aa4a19eef1c0f4d9.png#pic_center

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

深度解析Stable Diffusion模型原理：技能干货来袭