人工智能-深入相识Stable Diffusion模子架构和核心组件（CLIP/Unet/VAE）_潜在扩散模

大连全瓷种植牙齿制作中心 发表于 2025-2-17 09:17:43

深入相识Stable Diffusion模子架构和核心组件（CLIP/Unet/VAE）_潜在扩散模

前言

Stable Diffusion 是一种基于扩散技术的深度学习文本转图像模子，利用潜在扩散模子（Latent Diffusion Model，LDM）来生成高质量的图像。它重要用于生成以文字形貌为条件的详细图像，但也可应用于其他使命，如 inpainting（图像修复）、outpainting（图像扩展）以及根据文字提示词生成图像到图像（image-to-image）的转换。
https://i-blog.csdnimg.cn/img_convert/d940b34edcd0b8655db4c8f4f30f42f0.png
从上图可以看出，只需提供一个文本提示，例如“一只戴着帽子的狗”，Stable Diffusion模子就可以生成一张代表文本的图像，这太神奇了！
扩散模子可以生成高质量的图像，Stable Diffusion模子是一种特殊的扩散模子，称为潜在扩散模子（LDM）。原始扩散模子往往会消耗更多的内存，因此创建了潜在扩散模子，它可以在称为潜在空间的低维空间中进行扩散过程。从高层次上讲，扩散模子是机器学习模子，它被denoise逐步训练成随机高斯噪声，以获得结果，即image。
Stable Diffusion 模子架构
https://i-blog.csdnimg.cn/img_convert/a8b7049120101d662095d570f4b6fc3c.png
https://i-blog.csdnimg.cn/img_convert/abbec3af46e224ef85ee31b063056a06.png
全部的AI计划工具，安装包、模子和插件，都已经整理好了，

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

深入相识Stable Diffusion模子架构和核心组件（CLIP/Unet/VAE）_潜在扩散模