论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
2、Stable Diffusion
2、Stable Diffusion
十念
论坛元老
|
2024-11-14 11:35:31
|
显示全部楼层
|
阅读模式
楼主
主题
1753
|
帖子
1753
|
积分
5259
2、Stable Diffusion
Stable Diffusion 是一种高效的文本到图像天生模型,它使用扩散模型(Diffusion Model)技术将天然语言形貌转换为高质量的图像。其工作原理是通过反向扩散过程,逐渐将噪声引导到符合输入文本形貌的图像上。相比其他天生模型(如 GANs),扩散模型在训练稳定性和图像天生质量方面具有显著优势。
Diffusion Model
Diffusion Model论文链接:Denoising Diffusion Probabilistic Models.
在介绍Stable Diffusion之前,必须先对Diffusion Model的原理有所相识,Stable Diffusion就是以Diffusion Model为基础举行构建,
Diffusion Model(扩散模型)
是一种天生模型,近年来在图像天生任务中表现优异,尤其是在高质量图像天生方面,如
DALL·E 2
和
Stable Diffusion
等模型的基础就是扩散模型。其核心头脑是通过对数据添加噪声,然后逐步学习去噪的过程,从而天生新数据。
本文只介绍他的大抵原理,至于为什么公式推导,可以查看Diffusion Model论文原文
扩散模型的工作机制分为两个阶段:
正向扩散过程
和
逆向去噪过程
。
左边为
正向扩散
,右边为
逆向去噪
。在
Diffusion Model
中,逆向过程通常使用
U-Net 神经网络
来举行训练,该网络通过猜测输入噪声中的噪声身分,逐步将噪声图像转换为清晰的图像。同时,使用时间嵌入使模型能够处理不同时间步长的去噪任务,通过最小化噪声猜测的丧失函数,使模型在去噪过程中逐步恢复图像的细节。
正向扩散过程
在正向过程中,扩散模型对真实数据(如图像)逐步加入噪声,直到将数据变成完全的高斯噪声。这个过程可以通过一系列步调来模拟,逐步将原始数据扰动成噪声,正向扩散过程遵照预设的马尔可夫链规则。
逆向去噪过程
逆向过程是天生数据的关键,它从完全的噪声图像开始,逐步去除噪声,以恢复真实的高质量数据。模型在每一步猜测并去除噪声,逐渐重建出与训练数据相似的图像。这一步调雷同于学习一个去噪自编码器,通过模型学习每一步去噪操作,逆转噪声的扩散过程,最终天生雷同原始分布的数据。
此中,模型须要学习参数化的 μθ和 Σθ,即怎样从噪声数据逐渐还原出清晰的图像。现实上就是盘算方差和均值。
丧失函数
通常使用均方偏差(MSE)作为丧失函数,具体形式如下:
这里,ϵ是添加的真实噪声,而 ϵθ是模型输出的噪声猜测。通过最小化该丧失,模型能够逐步学会怎样从噪声中恢复原始图像。
图像直观解释
上面为正向扩散过程,下面为逆向去噪
Stable Diffusion
Stable Diffusion论文链接:High-Resolution Image Synthesis with Latent Diffusion Models
上文介绍了Diffusion Model,
Stable Diffusion
正是在 Diffusion Model 的基础上举行了改进。简单来说,Stable Diffusion 在逆向去噪过程中,不光依靠于天生时的噪声信息,还能够引入更多的辅助信息来资助模型更好地举行逆向去噪。只要这些辅助信息能够被编码成固定维度,就可以融入逆向还原的过程中,从而提拔模型训练效果和天见效果的质量。
模型架构图
从图中可以看出,左边粉色的框中是
U-Net 编码器-解码器结构
,中间绿色框为
噪声注入与去噪过程
,右边为
天生辅助信息的模块
(本文使用CLIP),下面将分别解释各个结构的作用与细节。
U-Net 编码器-解码器结构
上图中左边粉色的框中是
U-Net 编码器-解码器结构
:
编码器
:U-Net 结构的一部分,用于提取图像中的特征。编码器逐步将图像中的信息压缩成低维表示,并捕获多标准特征,这对于天生过程中的逐步去噪至关紧张。
解码器
:U-Net 结构的另一部分,逐步还原图像。解码器通过多次跳跃毗连(skip connections)从编码器中获取不同层级的特征,并将噪声图像逐渐恢复为高质量图像。
噪声注入与去噪过程
中间绿色框为
噪声注入与去噪过程:
正向扩散
过程中,Stable Diffusion 将随机噪声逐渐添加到图像中,直到图像变成完全的噪声。
逆向扩散
过程通过逐步去除噪声来重建图像,
Stable Diffusion
使用
U-Net
结构和条件信息来猜测并执行去噪。与传统扩散模型不同,Stable Diffusion 在逆向去噪过程中引入了辅助信息(如文本或其他条件),使得去噪过程不光依靠于噪声,还能够根据条件输入天生目标效果。具体来说,
U-Net
的每一层都应用了留意力机制,允许模型更加有效地捕获长距离依靠关系。在这个过程中,U-Net 使用图像本身天生查询(q),而使用辅助信息天生键(k)和值(v)。通过盘算 q 和 k之间的相似性,模型能够动态地加权和选择与当前特征相对应的值(v),从而实现对特征的天生和优化。这种机制加强了模型在天生图像时的表达能力,使其能更好地符合输入的条件。
天生辅助信息的模块
论文中使用文本数据作为辅助数据举行辅助,那么就使用到将文本翻译成图像特征的模型。
CLIP 是一个能够将图像和文本映射到相同特征空间中的模型。在 Stable Diffusion 中,CLIP 主要用于提供文本引导,即根据输入的文本形貌来天生符合语义的图像。CLIP 提供的文本和图像特征嵌入被整合到扩散模型的逆向去噪过程中,以确保天生的图像与输入文本形貌相符。
加入了辅助信息,为什么可以使用和Diffusion Model一样的原理?
由上文中给出Diffusion Model的正向扩散和逆向去噪过程的公式证实,同样的加入辅助信息后,证实仍使用贝叶斯公式,只是加了一个辅助公式。
在
Stable Diffusion
中,我们引入了条件信息 c(比方文本嵌入),以资助天生与特定条件相符的图像。在逆向去噪过程中,辅助信息的引入不会改变根本的推理逻辑。可以通过以下步调证实这一点:
引入条件信息
在逆向去噪的环境下,模型不光依靠于噪声图像 Xt,还依靠于条件信息 c。因此,逆向去噪的公式可以扩展为:
猜测均值与方差的条件化
在这个公式中,μθ和 Σθ 的盘算是条件化的,即它们不光依靠于当前的噪声图像 Xt,还依靠于辅助信息 c。比方,模型可以用 CLIP 提供的文本嵌入作为条件信息,来影响去噪的均值和方差的猜测。
保持逆向逻辑不变
尽管我们引入了辅助信息,逆向去噪的推理逻辑仍旧保持不变,因为模型的目标仍旧是最小化与真实数据分布的距离。丧失函数的形式可以写作:
这里 ϵθ 是模型猜测的噪声,依然使用均方偏差(MSE)来盘算模型输出与真实噪声之间的差别。
总结
因此,Stable Diffusion 在引入辅助信息的同时,可以仍旧使用与传统扩散模型相同的逆向去噪推理逻辑。这是因为辅助信息通过影响模型的均值和方差猜测来引导天生过程,而不改变天生的基础机制。模型依然在每个时间步上逐步去噪,通过保留原有的逆向逻辑,联合条件输入,从而天生符合条件的高质量图像。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
十念
论坛元老
这个人很懒什么都没写!
楼主热帖
Velero系列文章(四):使用Velero进行 ...
Kali Linux利用MSF入侵安卓手机(小白版 ...
SonarQube安全扫描
C/C++函数的调用约定详解
三天吃透Kafka面试八股文
Android Studio 实现登录注册-源代码 ...
微光互联 TX800-U 扫码器无法输出中文 ...
xmrig挖矿样本分析 miner
Python嘎嘎涨知识的7个小游戏,玩过的 ...
Java多线程(一篇从0讲透)
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表