刘俊凯 发表于 2024-8-2 05:55:29

Stable Diffusion VAE:改善图像质量的原理、选型与使用指南

VAE Stable Diffusion(稳定扩散)是一种用于生成模子的算法,联合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的头脑。它通过对变分自编码器进行改进,提高了生成样本的质量和多样性。
VAE Stable Diffusion的核心头脑是使用扩散生成网络来更换传统的解码器。扩散生成网络是一个逐步生成样本的过程,每一步都通过对噪声进行扩散来生成样本。这种逐步生成的过程可以提高生成样本的质量,并且可以控制生成样本的多样性。
这话太学术性了。说人话就是在Stable Diffusion中使用VAE能够得到颜色更鲜艳、细节更锋利的图像,同时也有助于改善脸和手等部位的图像质量。
VAE在生成图像过程中的作用可以通过下面的图简朴相识下:
https://i-blog.csdnimg.cn/blog_migrate/0e13928463964ada81cdd29d277df819.png
原始图像,比如高维度 512*512的,会经过encoder编码生成低维度的大小 比如 64*64,编码后的图像跟原始图像位于差别的空间中,前者在一个叫latent 空间中,后者是像素 pixel空间。在latent空间中生成后的图像再经解码还原到像素空间,即人类瞥见的图像,这个过程中,图像会有信息丧失,而VAE就充当了上述编解码器的角色,好的VAE模子能够较好的保证图像质量。
https://i-blog.csdnimg.cn/blog_migrate/c93ca90867febe30ca0d812f2ff32a56.png
PastelMix model:
https://i-blog.csdnimg.cn/blog_migrate/a38c4571209fa95e2b87835c711c6e7d.png
Deliberate model
https://i-blog.csdnimg.cn/blog_migrate/8194ae4bb1ae606f923e4ae1d1a136bb.png
常见 VAE 模子范例
一般情况下,我们只需要重点关注 Stability AI 推出的 EMA (Exponential Moving Average)和 MSE (Mean Square Error )两个范例的 VAE 模子即可。
•stabilityai/sd-vae-ft-ema
•stabilityai/sd-vae-ft-mse
就使用经验而言,EMA 会更锐利、MSE 会更平滑。
除此之外,还有两个比力知名的 VAE 模子,主要用在动漫风格的图片生成中:
•WarriorMama777/OrangeMixs
•hakurei/waifu-diffusion-v1-4
除了上面的几种 VAE 模子之外,有一些模子会自带自己的 VAE 模子,比如最近发布的 SDXL 模子,在项目中,我们能够看到模子自己的 VAE 模子。
•stabilityai/stable-diffusion-xl-refiner-1.0/vae
•stabilityai/stable-diffusion-xl-base-1.0/vae
在 Stable Diffusion 的世界,修复人脸主要依赖的是下面两个项目的能力:
•TencentARC/GFPGAN
•sczhou/CodeFormer
前文提到的 Stability AI 推出的常用的 VAE 模子,是基于 LAION-Aesthetics和 LAION-Humans,对 CompVis/latent-diffusion 项目进行了模子微调而来的模子。而这两个数据集特别针对人对于图片的喜爱程度进行了整理,其中后者包罗大量的人脸。
所以,在经过高质量的图片、大量人脸数据的训练后,VAE 模子对于改善图片色调,以及轻微修正图片中的人脸,也具备了一些能力。
Stable Diffusion 最好的VAE


[*]kl-f8-anime (Anything V3) – for anime art (created by Hakurei by finetuning the SD 1.4 VAE on several anime-styled images).【11】
[*]kl-f8-anime2 – for anime art, improved colors (use of red hue is dimmed down).【12】
[*]vae-ft-mse-840000-ema-pruned – for realistic models or styles (created by StabilityAI).【13】
[*]OrangeMixs – for anime art.【14】
[*]Color101 – for improving colors and color depth.【15】
在Stable Diffusion中,不管是V1,V2,还是其他基础模子,如果本身对图像质量没有苛刻要求,其实是不需要额外部署VAE模子的,因为现在很多模子中都已经集成了VAE,比如  Anything VAE 已经集成到 Anything 模子了,再额外增加模子也没有用果。但是通过使用额外的VAE能够赛过默认提供的内置模子。当确实需要下载部署额外VAE时候,将下载的模子放置在目录(以AUTOMATIC1111’s WebUI为例):
*\stable-diffusion-webui\models\VAE
如果有多个VAE,你可以在UI Settings中选择你更喜欢的VAE:
https://i-blog.csdnimg.cn/blog_migrate/1b556185a40cec2d10c0eba90b185521.png
Selecting VAE manually from AUTOMATIC1111 WebUI’s Settings. Settings -> Stable Diffusion -> SD VAE -> Choose your preferred VAE
资源链接:
 stabilityai/sd-vae-ft-ema: stabilityai/sd-vae-ft-ema · Hugging Face
 stabilityai/sd-vae-ft-mse: stabilityai/sd-vae-ft-mse · Hugging Face
 hakurei/waifu-diffusion-v1-4: hakurei/waifu-diffusion-v1-4 · Hugging Face
 stabilityai/stable-diffusion-xl-refiner-1.0/vae: stabilityai/stable-diffusion-xl-refiner-1.0 at main
 stabilityai/stable-diffusion-xl-base-1.0/vae: stabilityai/stable-diffusion-xl-base-1.0 at main
 stabilityai/sdxl-vae: stabilityai/sdxl-vae · Hugging Face
 TencentARC/GFPGAN: GitHub - TencentARC/GFPGAN: GFPGAN aims at developing Practical Algorithms for Real-world Face Restoration.
 sczhou/CodeFormer: GitHub - sczhou/CodeFormer: Towards Robust Blind Face Restoration with Codebook Lookup Transformer
 LAION-Aesthetics: LAION-Aesthetics | LAION
 CompVis/latent-diffusion: GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
 vae/kl-f8-anime2.ckpt · hakurei/waifu-diffusion-v1-4 at main
 vae/kl-f8-anime2.ckpt · hakurei/waifu-diffusion-v1-4 at main
 vae-ft-mse-840000-ema-pruned.safetensors · stabilityai/sd-vae-ft-mse-original at main
 VAEs/orangemix.vae.pt · WarriorMama777/OrangeMixs at main
 https://civitai.com/models/70248/color101-vae

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Stable Diffusion VAE:改善图像质量的原理、选型与使用指南