深度解析Stable Diffusion模型原理:技能干货来袭

打印 上一主题 下一主题

主题 2005|帖子 2005|积分 6015

Stable Diffusion作为当下热门的AI图像生成模型,其原理值得深入探究。本文将带你了解其核心技能,包括变分自编码器、U-Net和文本编码器的协同工作,以及扩散和逆扩散过程怎样实现图像生成。通过剖析模型架构与训练机制,揭示它怎样低落盘算成本、提高生成稳定性,为AI图像创作开辟新道路。
一、整体框架


阶段1:用预训练生成的文本转向量模型将文本转成embedding向量,Bert, CLIP, chatGPT;
阶段2:用diffussion模型生成可解码的中间图, DDPM;
阶段3:用解码器生成最终的图片,VAE;



二、DDPM算法框架

目前所采用的扩散模型多数是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models,和GAN相比,DDPM拟合的是加噪图片,并通过反向过程(去噪)生成原始图片。


三、亿点点数学原理

DDPM前向过程(扩散过程)





【这个有什么用呢???反面会说,这里先留一个印象,用来做样本生成】
DDPM反向过程(去燥过程)






** **

四、DDPM模型原理


模型训练


58.5亿张图片,随机采样某个时候的噪声,Unet模型预测该时候噪声,去拟合刚才采样出来的噪声
符合科学修仙第二定理:鼎力大肆出奇迹。

图像生成


为什么方差的尾巴上要加上一个随机采样的 z, 很多实验(语音合成,推荐的dropout)添加随机扰动反而有神效,科学家也不知道为什么反正这么干有用。符合科学修仙第三定理:遇事不决,量子力学。
公式中得到了t-1的均值和方差,x又符合高斯分布,根据分布公式,均值是+前面,方差就是需要呈上z, 其实并不是什么随机扰动。

扯这么多其实只需要记住两个公式:公式1用于采样,建模噪声;公式2根据预估的噪声生成图像;




五、笔墨生成图片


Diffusion模型可以从恣意一个噪声点生成图片,文本作为条件项,用来束缚最终生成的图像


输入:T, 带噪音的图像向量,文本向量
输出:有文本的噪音向量,无文本的噪音向量, 噪音向量
重新整理:带噪音的图像向量 - 噪音 + T 向量

**
**
回首一下Stable Diffusion 由三个部分构成
文本编码器CLIP
主要负责将文本转换为U-Net可以理解的表征形式,从而引导U-Net进行扩散;
Difussio模型(U-Net 网络)
U-Net 是扩散模型的主干网络,其作用是对噪音进行预测,从而实现反向去噪过程;
VAE
其作用是将图像转换为低维表示形式,从而使得扩散过程是在这个低维表征中进行的,扩散完成之后,在通过VAE 解码器,将其解码成图片;

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时间可以搞点实战案例来学习。

这份完整版的AIGC全套学习资料已经上传CSDN,朋侪们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

花瓣小跑

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表