传统静态感知器公式为 y = g ( W T x + b ) y = g(W^{T}x + b) y=g(WTx+b) ,动态感知器则通过聚合多个线性函数界说:
y = g ( W ~ T ( x ) x + b ~ ( x ) ) y = g(\tilde{W}^{T}(x)x+\tilde{b}(x)) y=g(W~T(x)x+b~(x))
W ~ ( x ) = ∑ k = 1 K π k ( x ) W ~ k \tilde{W}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{W}_{k} W~(x)=∑k=1Kπk(x)W~k
b ~ ( x ) = ∑ k = 1 K π k ( x ) b ~ k \tilde{b}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{b}_{k} b~(x)=∑k=1Kπk(x)b~k
s . t . 0 ≤ π k ( x ) ≤ 1 s.t.0\leq\pi_{k}(x)\leq1 s.t.0≤πk(x)≤1
∑ k = 1 K π k ( x ) = 1 \sum_{k = 1}^{K}\pi_{k}(x)=1 ∑k=1Kπk(x)=1
其中, π k ( x ) \pi_{k}(x) πk(x)是留意力权重,使聚合后的模子成为非线性函数,增强了表征能力。与静态感知器相比,动态感知器模子尺寸更大,但盘算留意力权重和聚合参数的额外盘算量,在卷积层中可忽略不计。
3.2 动态卷积
动态卷积是满足盘算约束的特别动态感知器。它有 K K K个类似巨细和输入/输出维度的卷积核,通过留意力权重 π k \pi_{k} πk聚合。在构建动态卷积层时,会在聚合卷积后使用批量归一化和激活函数。
盘算留意力时,应用挤压激励模块,先全局平均池化,再经两个全连接层和softmax函数生成归一化留意力权重。与SENet差别,动态卷积在卷积核上盘算留意力,盘算资本低。聚合卷积核时,因卷积核尺寸小,盘算效率高,额外盘算量可忽略不计,且不增长输出维度。动态卷积可直接替换现有CNN架构中的各类卷积,与其他算子和激活函数互补。
四、训练深度DY-CNNs的两个看法
4.1 看法1:留意力和为1
训练深度DY-CNNs需联合优化卷积核和留意力模子。将留意力输出约束为 ∑ k π k ( x ) = 1 \sum_{k}\pi_{k}(x)=1 ∑kπk(x)=1,能使聚合后的卷积核在卷积核空间的凸包内,简化留意力模子 π k ( x ) \pi_{k}(x) πk(x)的学习,softmax是实现该约束的常用选择。
对约束条件 ∑ k π k ( x ) = 1 \sum_{k}\pi_{k}(x) = 1 ∑kπk(x)=1的分析。它将聚合卷积核 ∑ k π k W ~ k \sum_{k}\pi_{k}\tilde{W}_{k} ∑kπkW~k的空间从两个棱锥(在CondConv [37]中使用)压缩为一个三角形。通过对留意力总和举行归一化,一条红线被压缩成一个点。
4.2 看法2:训练初期靠近均匀的留意力
对DY-MobileNetV2和DY-MobileNetV3举行多项溶解实验。研究卷积核数量 K K K发现, K K K增大模子表示能力增强,但超过4后准确率不再提拔,且易过拟合。在差别层使用动态卷积实验中,使用动态卷积的层越多,准确率越高,末了一个1×1卷积使用动态卷积效果最佳。Softmax温度实验表现, τ = 30 \tau = 30 τ=30时性能最好,温度退火可进一步提高准确率。对比动态卷积与挤压激励(SE),发现两者可协同提拔性能。
5.4 主要效果