要处置惩罚千兆像素的WSI,DT-MIL的第一步是缩小其规模。为此,使用预先练习的EfficientNet B0(在ImageNet上)从WSI内的感兴趣区域(ROI,如果有的话)的patch中提取特征。这些特征被视为超像素,然后缝合在一起形成带位置编码的特征图像。具体的,假设来自WSI I I I的patches是 { x 1 , x 2 , . . . , x N } \left\{x_{1},x_{2},...,x_{N}\right\} {x1,x2,...,xN},此中 x i ∈ R W × H × 3 x_{i}\in R^{W\times H\times 3} xi∈RW×H×3, W W W和 H H H为patch的width和height。对应的embedded特征记为 { e 1 , e 2 , . . . , e N } \left\{e_{1},e_{2},...,e_{N}\right\} {e1,e2,...,eN},此中 e i ∈ R D e_{i}\in R^{D} ei∈RD。假设WSI由 R R R行和 C C C列的patches构成,那么缩小的位置编码特征图像表现为 Z 0 ∈ R R × C × D Z_{0}\in R^{R\times C\times D} Z0∈RR×C×D。然后,一个1×1的卷积用于实例级特征选择,将位置编码特征图像的通道维数从 D D D降低到更小的维数 d d d,生成新的位置编码特征图 P 0 ∈ R R × C × d P_0∈R^{R×C×d} P0∈RR×C×d( W , H = 512 W,H=512 W,H=512, D = 1280 , d = 512 D=1280,d=512 D=1280,d=512)。
可变形Transformer Encoder
bag嵌入模块中的可变形Transformer编码器用于通过同时全局聚合 P 0 P_0 P0中的实例表现并参考位置上下文信息来更新每个实例的表现。编码器是重复块的堆叠,此中每个块由多头可变形自注意模块(MDSA)和前馈网络(FFN)以及残差毗连和层归一化(LN)构成,即: E B ( P i ) = L N ( H + F F N ( H ) ) H = L N ( P i − 1 + M D S A ( P i − 1 ) ) EB(P_{i})=LN(H+FFN(H))\\ H=LN(P_{i-1}+MDSA(P_{i-1})) EB(Pi)=LN(H+FFN(H))H=LN(Pi−1+MDSA(Pi−1))此中, P i P_{i} Pi是第 i i i个encoder block的feature maps。与transformer中的传统自注意模子差别,该模子在更新此中一个实例时全局聚合所有实例表现,可变形自注意模块只关注一小部分关键实例。给定一个输入 P i ∈ R R × C × d P_{i}\in R^{R\times C\times d} Pi∈RR×C×d,令 q q q索引一个query元素 f q f_{q} fq和2D参考点 r q r_{q} rq,MDSA被界说为: M D S A ( f q , r q , P i ) = ∑ m = 1 M W m [ ∑ k = 1 K A m q k ⋅ W m ′ P i ( r q + Δ r m q k ) ] MDSA(f_{q},r_{q},P_{i})=\sum_{m=1}^{M}W_{m}[\sum_{k=1}^{K}A_{mqk}\cdot W'_{m}P_{i}(r_{q}+\Delta r_{mqk})] MDSA(fq,rq,Pi)=m=1∑MWm[k=1∑KAmqk⋅Wm′Pi(rq+Δrmqk)]此中 m m m对注意力head举行索引, k k k对采样的keys举行索引, K K K是所有采样keys的总数( K < R C K<RC K<RC)。 W m ′ ∈ R C v × d W'_{m}\in R^{C_{v}\times d} Wm′∈RCv×d和 W m ∈ R C v × d W_{m}\in R^{C_{v}\times d} Wm∈RCv×d,此中 C v = d / M C_{v}=d/M Cv=d/M是可学习的权重。 A m q k ∈ ( 0 , 1 ) A_{mqk}\in(0,1) Amqk∈(0,1)以及 Δ r m q k ∈ R 2 \Delta r_{mqk}\in R^{2} Δrmqk∈R2表现第 m m m个注意力头的第 k k k个采样点的attention weight和sampling offset。
在Transformer编码器中,位置信息嵌入了位置编码模块。在这里,作者将Transformer中的原始模块扩展到2D情况。对于每个维度的坐标,作者分别使用sin和cos函数。
解码器
在解码器部分,作者遵照Transformer的尺度架构。解码器由具有级联的多头自注意力、FFN层以及残差毗连和层归一化的重复块构成。与使用六个块作为解码器的原始Transformer差别,这里使用两个block来进一步降低模子的复杂性。为了举行分类,作者设置了一个可学习的嵌入作为cls token。解码器中的注意力机制是经典的key-value attention: A t t ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Att(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V Att(Q,K,V)=softmax(dk QKT)V在多头自注意力中, V = K = Q V=K=Q V=K=Q,在多头编码器-解码器注意力中, K = V K=V K=V为encoder的输出,而 Q Q Q是decoder的输出。
分类头