《VQ-VAE》:Stable Diffusion计划的架构源泉

打印 上一主题 下一主题

主题 949|帖子 949|积分 2847


     文章目次

     
         
  • 阅读本文你可以相识到     
  • 1 VQ-VAE的核心头脑   
     
         
  • 1.1 为什么VQ-VAE想要把图像编码成离散向量?     
  • 1.2 VQ-VAE引入codebook(即embedding space嵌入空间)     
  • 1.3 VQ-VAE的工作过程   
     
         
  • 2 VQ-VAE实现方法   
     
         
  • 2.1 VQ-VAE的编码器怎么输出离散向量。     
  • 2.2 VQ-VAE怎么优化编码器息争码器     
  • 2.3 VQ-VAE怎么优化嵌入空间   
     
         
  • 3 总结评价     
  • 参考资料   
     阅读本文你可以相识到

     
         
  • VQ-VAE的核心头脑     
  • VQ-VAE中关键算法的具体形式     
  • VQ-VAE的贡献及其对其他工作的影响   
     通过阅读这篇文章,你不仅能明白VQ-VAE自己的原理,更能知道如何将VQ-VAE中的核心机制活学活用。
     1 VQ-VAE的核心头脑

     1.1 为什么VQ-VAE想要把图像编码成离散向量?

     最早的自编码器(Autoencoder, AE),AE是一类可以或许把图片压缩成较短的向量的神经网络模型,其结构如下图所示。AE包含一个编码器
           
     和一个解码器           
     。在训练时,输入图像           
     会被编码成一个较短的向量           
     ,再被解码回另一幅长得差不多的图像           
     。网络的学习目标是让重修出来的图像           
     和原图像           
     尽可能相似。     
     

      解码器可以把一个向量解码成图片。换一个角度看,解码器就是一个图像生成模型,因为它可以根据向量来生成图片。那么,AE可不可以用来做图像生成呢?很可惜,AE的编码器编码出来的向量空间是不规整的。也就是说,解码器只认识经编码器编出来的向量,而不认识其他的向量。假如你把自己随机生成出来的向量输入给解码器,解码器是生成不出有意义的图片的。AE不可以或许随机生成图片,所以它不能很好地完成图像生成任务,只能起到把图像压缩的作用。AE离图像生成只差一步了。只要AE的编码空间比力规整,符合某个简单的数学分布(比如最常见的尺度正态分布),那我们就可以从这个分布里随机采样向量,再让解码器根据这个向量来完成随机图片生成了。VAE就是如许一种改进版的AE。它用一些奇妙的方法约束了编码向量
           
     ,使得           
     满
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

渣渣兔

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表