论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
Stable Diffusion详解
Stable Diffusion详解
魏晓东
金牌会员
|
2024-8-29 19:40:34
|
显示全部楼层
|
阅读模式
楼主
主题
616
|
帖子
616
|
积分
1848
前言
Stable Diffusion在图像生成方面取得了很大的成功,其核心原理是LDM(Latent Diffusion Models),在论文《High-Resolution Image Synthesis with Latent Diffusion Models》中被提出,使用潜在扩散模型举行高分辨率图像生成,发表在CVPR2022上。LDM作者和VQGAN的作者类似。接下来对LDM这篇论文举行详细介绍。
一、LDM原理
Diffusion Model(DM)的练习和推理速度太慢,需要占用大量的盘算资源。因此LDM想办理的就是在不降低DM的图像生成能力的基础上降低盘算量。
论文中总结到,对于基于最大似然的模型,练习可以分为两部分,先是举行感知压缩(perceptual compression),然后举行语义压缩(semantic compression)。
(图像感知指的是图像的细节,图像语义指的是图像的主体是什么)
。对于DM来说,在举行图像生成的时候,在前面的步骤中先是举行图像的语义生成,也就是确定图像的内容大概是什么东西,接下来的很多步骤都是举行图像的感知生成,也就是负责图像的细节生成。由于DM是在像素层面举行生成,所以盘算量很大,而且DM的很多盘算量都集中在图像的感知(细节)生成方面。
基于此LDM的目标就是想让DM只负责图像语义方面,而图像的感知(细节)方面交给其他的模型去负责。也就是让DM在潜在空间上去练习和推理。
二、模型布局
LDM的模型布局如上图所示。其主体是由自编码器部分(粉色)、DM部分(绿色)以及条件机制(灰色)三部分组成。在举行图像生成时,起首使用DM举行扩散得到具有语义信息的特征图,然后使用自编码器的解码器举行图像的感知生成得到最终的图片。
这样做有三个利益:1.DM在低维潜在空间举行扩散,盘算量减少。2.使用了DM中的UNet模型的归纳偏置,这使得模型可以得到图像的空间布局,不用像之前VQVAE,VQGAN对于输入图像的极致压缩而失去了图像原有的空间布局。3.得到了一个通用的压缩模型,其潜在空间可以用于练习多个生成模型。接下里对LDM的三个部分分别举行介绍。
图像感知压缩
图像感知压缩模型(粉色部分)是基于之前的VQGAN工作,由自编码器组成,在练习时结合了感知损失和对抗损失,克制了只使用L1或L2损失引入的含糊现象。
对于输入的图像,编码器将其举行编码变更到潜在空间,然后解码器在潜在空间重构图像。为了克制高方差分布的潜在空间,LDM引入了两种正则化。一种是KL正则化,一种是VQ正则化。(在VQGAN中通过将潜在空间举行离散化克制高方差,而LDM的潜在空间是连续的。)
VQGAN在潜在空间举行自回归建模生成采样的时候,是使用的Transformer模型,相当于采样的是一维的序列,没有图片的空间布局。而LDM在潜在空间举行采样时,是由DM生成的具有归纳偏置的二维分布,具有空间特征布局。因此,LDM生成的图像更好的保存了细节部分。
同时,VQGAN由于使用的是Transformer举行建模采样,受Transformer自身特性影响,其序列长度是一维的且不会很长,这就导致最后将一维序列Reshape成二维特征图的时候特征图尺寸不会很大,所以其采样是高度压缩的,自然生成的图像失去了很多细节。而LDM使用DM生成的本身就是具有归纳偏置的二维特征采样,所以具有生成结果好。
DM
DM模型就是使用经典的DDPM模型,只不外扩散和采样从图像的像素空间转移到了潜在空间。对于DDPM的详细介绍可以看一下这篇博文:
DDPM详解
通过在潜在空间练习DM,可以使DM集中于图片中重要的语义信息减少盘算量。
条件机制
在举行条件生成时是在DM的UNet中使用cross-attention机制实现。为了对差别的模态举行处理,使用差别使用的专业编码器 τ θ \tau_\theta τθ(上图灰色部分)对条件举行编码得到 τ θ ( y ) \tau_\theta(y) τθ(y),然后将其输入到UNet中的cross-attention作交织注意力盘算。在举行条件生成的时候,LDM中的DM练习可以表示为下述公式:
三、模型练习与推理
LDM的练习与VQGAN一样是分为两部分。起首是先练习感知自编码器(粉色部分),接着在潜在空间上练习DM。
在举行推理的时候,先使用DM在潜在空间举行采样得到特征图,然后将其给解码器举行最终的图片生成。
总结
LDM通过在潜在空间举行DM练习采样,在没有降低图像生成质量的情况下大大进步了练习和推理速度,同时基于cross-attention条件机制,LDM与当时的SOTA方法相比取得了很好的结果。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
魏晓东
金牌会员
这个人很懒什么都没写!
楼主热帖
基础常用dos命令
云原生之旅 - 14)遵循 GitOps 实践的 ...
火山引擎 DataLeap 计算治理自动化解决 ...
.NET主流的几款重量级 ORM框架 ...
vuluhub_jangow-01-1.0.1
数仓实践丨常量标量子查询做全连接导致 ...
Unity技术手册 - Shader实现灵魂状态 ...
30 个 IDEA 常用小技巧,应有尽有,让 ...
day11-面向对象02
2022年总结-博客篇
标签云
挺好的
服务器
快速回复
返回顶部
返回列表