What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading)
Raphael Tang, Comcast Applied AI, ACL2023 best paper, Code, Paper
1. 前言
大规模扩散神经网络是文本到图像生成中的一个重要里程碑,但人们对其了解甚少,缺乏可解释性分析。在本文中,我们对近来开源的模型Stable Diffusion进行了文本-图像归因分析。为了生成像素级归因图,我们在去噪子网络中提拔并聚合交叉留意词-像素得分,将我们的方法定名为DAAM。我们通过测试其对名词的语义分割本领以及对全部词性的广义归因质量来评估其精确性,并由人类进行评分。然后,我们应用DAAM来研究语法在像素空间中的作用,表征十种常见依靠关系的头部相关热图交互模式。末了,我们使用DAAM研究了几种语义征象,重点是特性胶葛,我们发现同音同源词恶化了生成质量,描述性形容词出现的范围太广。据我们所知,我们是第一个从视觉语言学的角度解释大型扩散模型的人,这有助于未来的研究。
2. 团体思想
将Stable Diffusion中的交叉留意力可视化,对文本中的词的对生成图像的影响做了全面的分析,建议看原文。
3. 方法
3.1 Diffusion Attentive Attribution Maps
给定一个用于文本到图像合成的大规模潜在扩散模型,每个单词对图像的哪些部分影响最大?实现这一点的一种方法是归因方法,重要是基于扰动和梯度的,此中显著性图是根据输出相对于输入的一阶导数构建的,大概根据输入扰动构建的,以检察输出怎样变化。不幸的是,梯度方法被证实是难以处理的,由于在全部T个时间步长内,每个像素都需要反向传播,在我们的试点实验中,即使是微小的扰动也会导致显著不同的图像。
具体来说,给定一个latent变量 l t ∈ R w × h l_t\in R^{w\times h} lt∈Rw×h,扩散模型的U- Net的下采样块输出一系列向量 { h i , t } i K ∈ R w / c i , h / c i \{h_{i,t}\}^K_i \ \in R^{w/c^i,h/c^i} {hi,t}iK ∈Rw/ci,h/ci。通常在多头交叉留意力层添加文本条件,Stable Diffusion的网络布局请点击这里,可以表示为:
h i , t = F t i ( h ^ i , t , X ) ⋅ ( W v i X ) , F t i ( h ^ i , t , X ) = s o f t m a x ( ( W q i h ^ i , t ) ( W k i X ) T / d ) h_{i,t}=F^i_t(\hat h_{i,t}, X)\cdot (W^i_v X),\\ ~\\ F^i_t(\hat h_{i,t}, X)=softmax((W^i_q \hat h_{i,t})(W^i_k X)^T / \sqrt{d}) hi,t=Fti(h^i,t,X)⋅(WviX), Fti(h^i,t,X)=softmax((Wqih^i,t)(WkiX)T/d )
这里 F F F表示留意力得分,这个分数表现在空间层面,也就是文本和特性的分数,会影响终极的输出。下图搬运上述链接,防丢失。
3.2 Spatiotemporal aggregation
F t i [ x , y , l , k ] F^i_t[x, y, l, k] Fti[x,y,l,k]被归一化为[0,1],并将第 k k k个字(word)毗连到第 i i i个下采样块和第 l l l个头的中间坐标 ( x , y ) (x,y) (x,y)。由于U-Net(和VAE)的完全卷积性质,中间坐标局部映射到终极图像中周围受影响的正方形区域,因此得分将每个单词与该图像块相关联。然而,不同的层产生不同标准的热图,最深的层是最粗糙的,需要空间归一化来创建单个热图。为此,我们使用双三次插值将全部中间留意力得分数组提拔到原始图像大小,然后在头部、层和时间步长上对它们求和:
其实就是单词k对应的全部时间步,全部上下采样块,全部heads,全部通道的特性图插值到原图大小合并为一张图片,这样就得到了软热力图,如果是硬热力图就设定一个阈值变为0-1。
4. 归因分析
4.1 目的归因
对我们的方法进行定量评估具有挑衅性,但我们可以实验使用现有的注释数据集和方法,看看我们的方法有多一致。一个流行的视觉语义任务是图像分割,此中区域(即分割掩码)被赋予语义上有意义的标签,通常是名词。如果DAAM是准确的,那么我们的留意力图应该可以说与这些任务的图像分割标签对齐——只管没有经过执行这项任务的训练。
我们使用DPM求解器运行Stable Diffusion 2.0基础模型,每张图像使用30个推理步骤。然后,我们使用COCO图像字幕数据集的验证集合成了一组图像,表示真实的提示,另一组图像通过随机交换同一组中的名词(固定词汇)来合成,表示不真实。第二组的目的是观察该模型在多大程度上实用于不真实的提示,而在训练时不太大概遇到这种提示。我们将这两个集合定名为“COCO-Gen”和“Unreal-Gen”,每个集合有100个提示-图像对。对于基本事实,我们从提示中提取全部可数名词,然后手工分割图像中的每个现在名词。下图中可以看到,分割效果比其他无监督方法很多多少了,这也表现了名词可以对应相应的文本。
4.2 广义归因
我们将我们的准确性分析从名词扩展到全部词性,如形容词和动词,以表明DAAM更普各处实用。高质量、可靠的分析需要人工注释;因此,我们要求人类评分者使用五点Likert量表来评估DAAM舆图的归因质量。这种设置概括了上一节的设置,由于单词通常在视觉上是不可分离的,这妨碍了有效的分段注释。比方,在“人们在跑步”的提示中,不清楚在哪里可以直观地划分“跑步”。这只是跑步者的膝盖和脚,照旧摆动的手臂?相反,如果给注释者提供建议的“运行”热图,他们可以判断这些热图在多大程度上反映了单词。
4.3 视觉语法分析
有了DAAM,我们现在研究语法与生成的像素之间的关系。我们描述了头部相关DAAM图之间的成对相互作用,增补了前面的部分,并有助于形成进一步研究的假设。在图5中给出了示例。结论如下,请看图5从左到右,从上到下:
- 不相关的词轻易区分
- 名词复合词没有上风,ice-cream,分为ice和cream没用
- 标点符号仅有少许语义信息,意义不大
- and毗连两个名词,词意相似较难区分,反之轻易
- 动词很直观,表现了shirt的团体
- 形容词分布广泛
- 相关词表现突出
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |