Classifier-Free Guidance (CFG) Scale in Stable Diffusion

守听  论坛元老 | 2024-9-17 16:38:39 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 2139|帖子 2139|积分 6417

1.Classifier-Free Guidance Scale in Stable Diffusion

条记泉源:
1.How does Stable Diffusion work?
2.Classifier-Free Diffusion Guidance
3.Guide to Stable Diffusion CFG scale (guidance scale) parameter
1.1 Classifier Guidance Scale

分类器引导是一种将图像标签归并到扩散模子中的方法。您可以使用标签(label)来引导扩散过程。比方,标签“猫”引导反向扩散过程来生成猫的照片
分类器引导标准 (CG Scale) 是控制扩散过程有多大程度遵循标签引导的参数
下面是论文Classifier-Free Diffusion Guidance中的一个例子
假设有 3 组图像(下图中的三个分布代表),标签为“猫”、“狗”和“人”
如果扩散是无引导的(如最左侧)模子抽取的样本有时它可能会抽取恰当两个标签的图像,比方一个男孩在抚摸一只狗
如果扩散是有引导的(如右侧三个)模子抽取的样本可能只会含有一个标签的图像,比方一只狗
在高分类器引导下,扩散模子生成的图像将方向极度或明确的图像。如果你要求模子生成一只猫,它只会返回一张明确是猫的图像,除此之外别无其他

尽管分类器引导取得了破纪录的性能,但它需要一个额外的模子来提供该引导,这给训练带来了一些困难,我们需要同时训练两个模子(Unet + Classifier)代价较大

1.2 Classifier-Free Guidance Scale

无分类器引导是实现“没有分类器的分类器引导”的一种方法。他们没有使用类标签和单独的模子举行引导,而是建议使用图像标题(caption)并训练条件扩散模子,就像我们在文本到图像中讨论的模子一样。
他们将分类器部分作为噪声猜测器 U-Net 的条件,实现了图像生成中所谓的“无分类器”(即没有单独的图像分类器)引导。也就是文本提示提供了文本到图像的引导。
将Classifier用文本替代后,参加Cross Attention使得文本与图像融合,从而我们只需训练一个模子(Unet)

无分类器引导标准(CFG Scale)是控制扩散过程有多大程度遵循文本引导的参数
当 CFG 比例设置为 0 时,图像生成是无条件的(即忽略提示)
当 CFG 比例设置过高时,文本会引导扩散朝向,图像越贴近给定文本,但这并不意味着该值应始终设置为最大值,因为更多的引导意味着更少的多样性和质量
text (caption) = “panda playing guitar”
           
CFG=1     
           
CFG=2     
           
CFG=7     
           
CFG=10      
           
CFG=15     
           
CFG=20      
留意它在极度情况下的表现:
当CFG设置为1时,文本提示将被忽略。
当CFG设置为最大20时,但图像质量较差。
最具“创意”和“艺术性”的结果通常在 7-12 的引导范围内生成。但使用高达 15 的比例仍然会产生几乎没有伪影的结果。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

守听

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表