大连全瓷种植牙齿制作中心 发表于 2025-2-17 09:17:43

深入相识Stable Diffusion模子架构和核心组件(CLIP/Unet/VAE)_潜在扩散模

前言

Stable Diffusion 是一种基于扩散技术的深度学习文本转图像模子,利用潜在扩散模子(Latent Diffusion Model,LDM)来生成高质量的图像。它重要用于生成以文字形貌为条件的详细图像,但也可应用于其他使命,如 inpainting(图像修复)、outpainting(图像扩展)以及根据文字提示词生成图像到图像(image-to-image)的转换。
https://i-blog.csdnimg.cn/img_convert/d940b34edcd0b8655db4c8f4f30f42f0.png
从上图可以看出,只需提供一个文本提示,例如“一只戴着帽子的狗”,Stable Diffusion模子就可以生成一张代表文本的图像,这太神奇了!
扩散模子可以生成高质量的图像,Stable Diffusion模子是一种特殊的扩散模子,称为潜在扩散模子(LDM)。原始扩散模子往往会消耗更多的内存,因此创建了潜在扩散模子,它可以在称为潜在空间的低维空间中进行扩散过程。从高层次上讲,扩散模子是机器学习模子,它被denoise逐步训练成随机高斯噪声,以获得结果,即image。
Stable Diffusion 模子架构
https://i-blog.csdnimg.cn/img_convert/a8b7049120101d662095d570f4b6fc3c.png
https://i-blog.csdnimg.cn/img_convert/abbec3af46e224ef85ee31b063056a06.png
全部的AI计划工具,安装包、模子和插件,都已经整理好了,
页: [1]
查看完整版本: 深入相识Stable Diffusion模子架构和核心组件(CLIP/Unet/VAE)_潜在扩散模