深度解析Stable Diffusion模型原理:技能干货来袭
Stable Diffusion作为当下热门的AI图像生成模型,其原理值得深入探究。本文将带你了解其核心技能,包括变分自编码器、U-Net和文本编码器的协同工作,以及扩散和逆扩散过程怎样实现图像生成。通过剖析模型架构与训练机制,揭示它怎样低落盘算成本、提高生成稳定性,为AI图像创作开辟新道路。一、整体框架
https://i-blog.csdnimg.cn/img_convert/4a1b884af1abf3e5ee848c228cdb2fb2.png
阶段1:用预训练生成的文本转向量模型将文本转成embedding向量,Bert, CLIP, chatGPT;
阶段2:用diffussion模型生成可解码的中间图, DDPM;
阶段3:用解码器生成最终的图片,VAE;
https://i-blog.csdnimg.cn/img_convert/cb6e660746803622d51b6d1824a30b2d.png
https://i-blog.csdnimg.cn/img_convert/62d7c97cb376753e0b6d85c582e6fae3.png
https://i-blog.csdnimg.cn/img_convert/ea59b8ef11ea546e98a73e405ca38559.png
二、DDPM算法框架
目前所采用的扩散模型多数是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models,和GAN相比,DDPM拟合的是加噪图片,并通过反向过程(去噪)生成原始图片。
https://i-blog.csdnimg.cn/img_convert/a79b1ede5afbc1e8e8fcb40c2d6ad058.png
https://i-blog.csdnimg.cn/img_convert/73ef79409dfbcc354b363559435cbbe4.png
三、亿点点数学原理
DDPM前向过程(扩散过程)
https://i-blog.csdnimg.cn/img_convert/609f3c78dbe2609863d90d168fd5ebaf.png
https://i-blog.csdnimg.cn/img_convert/3512412e13eb24d9746792b21742e926.png
https://i-blog.csdnimg.cn/img_convert/e70342b11863f76fe83569d824b5264c.png
https://i-blog.csdnimg.cn/img_convert/d32d98459d18cee8af7095ccb950ded7.png
【这个有什么用呢???反面会说,这里先留一个印象,用来做样本生成】
DDPM反向过程(去燥过程)
https://i-blog.csdnimg.cn/img_convert/f1c55d69a3c6935c5eb2260564f686e2.png
https://i-blog.csdnimg.cn/img_convert/6a052bd19dbd12f164612f3f272e52c2.png
https://i-blog.csdnimg.cn/img_convert/e95c0f80977bdb001d58879468710f1d.png
https://i-blog.csdnimg.cn/img_convert/ba91dacf70d2f857a0d36c66f257cdeb.png
https://i-blog.csdnimg.cn/img_convert/842d84123f3b405ba866fe84160dd102.png
** **
四、DDPM模型原理
https://i-blog.csdnimg.cn/img_convert/eb13ba3794a88b64437298d68286b43e.png
模型训练https://i-blog.csdnimg.cn/img_convert/3903c8d28153404a82c5c4977588d888.png
58.5亿张图片,随机采样某个时候的噪声,Unet模型预测该时候噪声,去拟合刚才采样出来的噪声
符合科学修仙第二定理:鼎力大肆出奇迹。
https://i-blog.csdnimg.cn/img_convert/1c0e795cb903ddcf5ff85c4c815832d0.png
图像生成https://i-blog.csdnimg.cn/img_convert/68b19362b75f031df4fbaaab2de29034.png
为什么方差的尾巴上要加上一个随机采样的 z, 很多实验(语音合成,推荐的dropout)添加随机扰动反而有神效,科学家也不知道为什么反正这么干有用。符合科学修仙第三定理:遇事不决,量子力学。
公式中得到了t-1的均值和方差,x又符合高斯分布,根据分布公式,均值是+前面,方差就是需要呈上z, 其实并不是什么随机扰动。
https://i-blog.csdnimg.cn/img_convert/5149e178a88b141966e703a8df85cda9.png
扯这么多其实只需要记住两个公式:公式1用于采样,建模噪声;公式2根据预估的噪声生成图像;
https://i-blog.csdnimg.cn/img_convert/cf6d59a5c72f9c1e83cd8aa8a166d6e7.png
https://i-blog.csdnimg.cn/img_convert/319541d5680d9ca06176f4867dc8a265.png
https://i-blog.csdnimg.cn/img_convert/f1c55d69a3c6935c5eb2260564f686e2.png
https://i-blog.csdnimg.cn/img_convert/a318d9707105f06fc5db7b5faad598a5.png
五、笔墨生成图片
https://i-blog.csdnimg.cn/img_convert/3128701b6e6c491bde79391c2fbcc93b.png
Diffusion模型可以从恣意一个噪声点生成图片,文本作为条件项,用来束缚最终生成的图像
https://i-blog.csdnimg.cn/img_convert/4db7e5865392e4821eac0e04e1ba76d2.png
https://i-blog.csdnimg.cn/img_convert/066d034517a7b3161a4297cdd5ef9aa8.png
输入:T, 带噪音的图像向量,文本向量
输出:有文本的噪音向量,无文本的噪音向量, 噪音向量
重新整理:带噪音的图像向量 - 噪音 + T 向量
https://i-blog.csdnimg.cn/img_convert/39406694f317bf30e4dbe8ba5195ec16.png
**
**
回首一下Stable Diffusion 由三个部分构成:
文本编码器CLIP
主要负责将文本转换为U-Net可以理解的表征形式,从而引导U-Net进行扩散;
Difussio模型(U-Net 网络)
U-Net 是扩散模型的主干网络,其作用是对噪音进行预测,从而实现反向去噪过程;
VAE
其作用是将图像转换为低维表示形式,从而使得扩散过程是在这个低维表征中进行的,扩散完成之后,在通过VAE 解码器,将其解码成图片;
https://i-blog.csdnimg.cn/img_convert/1156881489f0e9f113fc187fcd0460f9.png
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时间可以搞点实战案例来学习。
https://img-blog.csdnimg.cn/direct/373dd1f17ed14db1a2fa4dfec03c0559.png
这份完整版的AIGC全套学习资料已经上传CSDN,朋侪们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://i-blog.csdnimg.cn/direct/0f40ccb0d5b940b0aa4a19eef1c0f4d9.png#pic_center
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]