人工智能-《VQ-VAE》：Stable Diffusion计划的架构源泉

渣渣兔 发表于 2025-2-19 08:04:42

《VQ-VAE》：Stable Diffusion计划的架构源泉

https://i-blog.csdnimg.cn/img_convert/342b7312e5739bd2e0250be0c4a3da4f.png
文章目次

[*]阅读本文你可以相识到
[*]1 VQ-VAE的核心头脑

[*]1.1 为什么VQ-VAE想要把图像编码成离散向量？
[*]1.2 VQ-VAE引入codebook(即embedding space嵌入空间)
[*]1.3 VQ-VAE的工作过程

[*]2 VQ-VAE实现方法

[*]2.1 VQ-VAE的编码器怎么输出离散向量。
[*]2.2 VQ-VAE怎么优化编码器息争码器
[*]2.3 VQ-VAE怎么优化嵌入空间

[*]3 总结评价
[*]参考资料
阅读本文你可以相识到

[*]VQ-VAE的核心头脑
[*]VQ-VAE中关键算法的具体形式
[*]VQ-VAE的贡献及其对其他工作的影响
通过阅读这篇文章，你不仅能明白VQ-VAE自己的原理，更能知道如何将VQ-VAE中的核心机制活学活用。
1 VQ-VAE的核心头脑

1.1 为什么VQ-VAE想要把图像编码成离散向量？

最早的自编码器(Autoencoder, AE)，AE是一类可以或许把图片压缩成较短的向量的神经网络模型，其结构如下图所示。AE包含一个编码器
      https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20e%28%29%20 和一个解码器       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20d%28%29%20 。在训练时，输入图像       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20X%20 会被编码成一个较短的向量       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20Z%20 ，再被解码回另一幅长得差不多的图像       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Chat%7BX%7D%20 。网络的学习目标是让重修出来的图像       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Chat%7BX%7D%20 和原图像       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20X%20 尽可能相似。
https://i-blog.csdnimg.cn/img_convert/dd4708e95df01f79afa7029d132cd60b.png
   解码器可以把一个向量解码成图片。换一个角度看，解码器就是一个图像生成模型，因为它可以根据向量来生成图片。那么，AE可不可以用来做图像生成呢？很可惜，AE的编码器编码出来的向量空间是不规整的。也就是说，解码器只认识经编码器编出来的向量，而不认识其他的向量。假如你把自己随机生成出来的向量输入给解码器，解码器是生成不出有意义的图片的。AE不可以或许随机生成图片，所以它不能很好地完成图像生成任务，只能起到把图像压缩的作用。AE离图像生成只差一步了。只要AE的编码空间比力规整，符合某个简单的数学分布(比如最常见的尺度正态分布)，那我们就可以从这个分布里随机采样向量，再让解码器根据这个向量来完成随机图片生成了。VAE就是如许一种改进版的AE。它用一些奇妙的方法约束了编码向量
      https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20Z%20 ，使得       https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20Z%20 满
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

《VQ-VAE》：Stable Diffusion计划的架构源泉