标题: What the DAAM: Interpreting Stable Diffusion Using Cross Attention [打印本页] 作者: 泉缘泉 时间: 2024-8-9 03:24 标题: What the DAAM: Interpreting Stable Diffusion Using Cross Attention What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading)
Raphael Tang, Comcast Applied AI, ACL2023 best paper, Code, Paper
1. 前言
给定一个用于文本到图像合成的大规模潜在扩散模型,每个单词对图像的哪些部分影响最大?实现这一点的一种方法是归因方法,重要是基于扰动和梯度的,此中显著性图是根据输出相对于输入的一阶导数构建的,大概根据输入扰动构建的,以检察输出怎样变化。不幸的是,梯度方法被证实是难以处理的,由于在全部T个时间步长内,每个像素都需要反向传播,在我们的试点实验中,即使是微小的扰动也会导致显著不同的图像。
具体来说,给定一个latent变量 l t ∈ R w × h l_t\in R^{w\times h} lt∈Rw×h,扩散模型的U- Net的下采样块输出一系列向量 { h i , t } i K ∈ R w / c i , h / c i \{h_{i,t}\}^K_i \ \in R^{w/c^i,h/c^i} {hi,t}iK ∈Rw/ci,h/ci。通常在多头交叉留意力层添加文本条件,Stable Diffusion的网络布局请点击这里,可以表示为:
h i , t = F t i ( h ^ i , t , X ) ⋅ ( W v i X ) , F t i ( h ^ i , t , X ) = s o f t m a x ( ( W q i h ^ i , t ) ( W k i X ) T / d ) h_{i,t}=F^i_t(\hat h_{i,t}, X)\cdot (W^i_v X),\\ ~\\ F^i_t(\hat h_{i,t}, X)=softmax((W^i_q \hat h_{i,t})(W^i_k X)^T / \sqrt{d}) hi,t=Fti(h^i,t,X)⋅(WviX), Fti(h^i,t,X)=softmax((Wqih^i,t)(WkiX)T/d )
这里 F F F表示留意力得分,这个分数表现在空间层面,也就是文本和特性的分数,会影响终极的输出。下图搬运上述链接,防丢失。
3.2 Spatiotemporal aggregation
F t i [ x , y , l , k ] F^i_t[x, y, l, k] Fti[x,y,l,k]被归一化为[0,1],并将第 k k k个字(word)毗连到第 i i i个下采样块和第 l l l个头的中间坐标 ( x , y ) (x,y) (x,y)。由于U-Net(和VAE)的完全卷积性质,中间坐标局部映射到终极图像中周围受影响的正方形区域,因此得分将每个单词与该图像块相关联。然而,不同的层产生不同标准的热图,最深的层是最粗糙的,需要空间归一化来创建单个热图。为此,我们使用双三次插值将全部中间留意力得分数组提拔到原始图像大小,然后在头部、层和时间步长上对它们求和: