IT评测·应用市场-qidao123.com

标题: 动态卷积：提拔神经网络性能的利器 [打印本页]

作者: 傲渊山岳 时间: 2025-3-21 02:09
标题: 动态卷积：提拔神经网络性能的利器
摘要：本文先容动态卷积，它通过动态聚合多个卷积核提拔模子表征能力，盘算资本增长极少。文章阐述其原理、与相干工作差异，在ImageNet分类和COCO关键点检测实验中效果显著。
关键词：动态卷积；卷积神经网络；留意力机制；图像分类；人体姿态估计
一、弁言

在深度学习领域，卷积神经网络（CNNs）是众多任务的焦点技能。随着移动设备和边沿盘算的兴起，轻量级CNNs的研究变得愈发重要。然而，轻量级CNNs常因盘算预算低，限定网络深度和宽度，导致性能降落。本文提出的动态卷积，为办理这一问题提供了新思绪，在不增长网络深度和宽度的情况下，有效提拔模子复杂度和性能。
二、相干工作

2.1 高效CNNs

为设计高效CNNs，研究者提出多种方法。SqueezeNet利用1×1卷积减少参数；MobileNet系列通过深度可分离卷积等优化盘算量；ShuffleNet采用通道混洗低落1×1卷积盘算量；ShiftNet用移位操作和逐点卷积替换空间卷积。这些方法从差别角度优化网络布局，但在极低盘算约束下，性能仍受影响。
2.2 模子压缩和量化

模子压缩和量化方法，如剪枝、量化等，可减小模子巨细、低落盘算量，与动态卷积方法互补，能进一步优化模子性能。
2.3 动态深度神经网络

动态神经网络专注于根据输入图像跳过模子部分内容。但现有工作多为静态卷积核、动态网络布局，且需额外控制器。动态卷积则是动态卷积核、静态网络布局，无需额外控制器，可端到端训练，效率和性能更优。
2.4 神经架构搜索

神经架构搜索（NAS）能寻找高精度和硬件感知的高效网络架构。动态卷积可用于NAS找到的先进架构，还能丰富搜索空间，提拔网络性能。
三、动态卷积神经网络

3.1 预备知识：动态感知器

传统静态感知器公式为                                  y                      =                      g                      (                                  W                         T                               x                      +                      b                      )                            y = g(W^{T}x + b)                y=g(WTx+b) ，动态感知器则通过聚合多个线性函数界说：
                                 y                      =                      g                      (                                           W                            ~                                     T                               (                      x                      )                      x                      +                                  b                         ~                               (                      x                      )                      )                            y = g(\tilde{W}^{T}(x)x+\tilde{b}(x))                y=g(W~T(x)x+b~(x))
                                          W                         ~                               (                      x                      )                      =                                  ∑                                     k                            =                            1                                     K                                           π                         k                               (                      x                      )                                           W                            ~                                     k                                     \tilde{W}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{W}_{k}                W~(x)=∑k=1Kπk(x)W~k
                                          b                         ~                               (                      x                      )                      =                                  ∑                                     k                            =                            1                                     K                                           π                         k                               (                      x                      )                                           b                            ~                                     k                                     \tilde{b}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{b}_{k}                b~(x)=∑k=1Kπk(x)b~k
                                 s                      .                      t                      .                      0                      ≤                                  π                         k                               (                      x                      )                      ≤                      1                            s.t.0\leq\pi_{k}(x)\leq1                s.t.0≤πk(x)≤1
                                          ∑                                     k                            =                            1                                     K                                           π                         k                               (                      x                      )                      =                      1                            \sum_{k = 1}^{K}\pi_{k}(x)=1                ∑k=1Kπk(x)=1
其中，                                           π                         k                               (                      x                      )                            \pi_{k}(x)                πk(x)是留意力权重，使聚合后的模子成为非线性函数，增强了表征能力。与静态感知器相比，动态感知器模子尺寸更大，但盘算留意力权重和聚合参数的额外盘算量，在卷积层中可忽略不计。
3.2 动态卷积

动态卷积是满足盘算约束的特别动态感知器。它有 K K K个类似巨细和输入/输出维度的卷积核，通过留意力权重 π k \pi_{k} πk聚合。在构建动态卷积层时，会在聚合卷积后使用批量归一化和激活函数。
盘算留意力时，应用挤压激励模块，先全局平均池化，再经两个全连接层和softmax函数生成归一化留意力权重。与SENet差别，动态卷积在卷积核上盘算留意力，盘算资本低。聚合卷积核时，因卷积核尺寸小，盘算效率高，额外盘算量可忽略不计，且不增长输出维度。动态卷积可直接替换现有CNN架构中的各类卷积，与其他算子和激活函数互补。
四、训练深度DY-CNNs的两个看法

4.1 看法1：留意力和为1

训练深度DY-CNNs需联合优化卷积核和留意力模子。将留意力输出约束为 ∑ k π k ( x ) = 1 \sum_{k}\pi_{k}(x)=1 ∑kπk(x)=1，能使聚合后的卷积核在卷积核空间的凸包内，简化留意力模子 π k ( x ) \pi_{k}(x) πk(x)的学习，softmax是实现该约束的常用选择。

对约束条件                                           ∑                         k                                           π                         k                               (                      x                      )                      =                      1                            \sum_{k}\pi_{k}(x) = 1                ∑kπk(x)=1的分析。它将聚合卷积核                                           ∑                         k                                           π                         k                                                    W                            ~                                     k                                     \sum_{k}\pi_{k}\tilde{W}_{k}                ∑kπkW~k的空间从两个棱锥（在CondConv [37]中使用）压缩为一个三角形。通过对留意力总和举行归一化，一条红线被压缩成一个点。
4.2 看法2：训练初期靠近均匀的留意力

在训练初期，靠近均匀的留意力有助于更多卷积核同时优化。但传统softmax输出靠近one-hot，倒霉于多卷积核优化。通过在softmax中引入较大温度参数                                  τ                            \tau                τ，可使留意力更均匀，提拔训练效率。温度退火策略，即训练前10个epoch将                                  τ                            \tau                τ从30线性减到1，还能进一步提高准确率。
4.3 与同期工作的关系

与同期的CondConv相比，动态卷积的留意力盘算方式差别。CondConv使用sigmoid盘算留意力，卷积核空间大，学习留意力模子困难。动态卷积每层卷积核更少、模子更小、盘算量更低，但准确率更高。
五、实验：ImageNet图像分类

5.1 实现细节

在ResNet、MobileNetV2和MobileNetV3三种架构上评估动态卷积，除第一层外，每层使用                                  K                      =                      4                            K = 4                K=4个卷积核，批量巨细设为256。差别架构训练设置差别，包罗学习率调整策略、权重衰减、优化器和随机失活率等。
5.2 研究DY-CNN

通过改变卷积核聚合方式和跨图像打乱留意力，验证DY-CNN的动态特性。实验表明，改变聚合方式会使性能显著降落，分析卷积核具有多样性；跨图像打乱留意力后准确率低落，证明留意力与输入相干。别的，研究发现留意力在低层级平坦、高层级稀疏，影响差别层的性能。
5.3 溶解研究

对DY-MobileNetV2和DY-MobileNetV3举行多项溶解实验。研究卷积核数量                                  K                            K                K发现，                                  K                            K                K增大模子表示能力增强，但超过4后准确率不再提拔，且易过拟合。在差别层使用动态卷积实验中，使用动态卷积的层越多，准确率越高，末了一个1×1卷积使用动态卷积效果最佳。Softmax温度实验表现，                                  τ                      =                      30                            \tau = 30                τ=30时性能最好，温度退火可进一步提高准确率。对比动态卷积与挤压激励（SE），发现两者可协同提拔性能。
5.4 主要效果

在三种CNN架构中，动态卷积均显著优于静态卷积，仅增长约4%盘算量，就能大幅提拔Top-1准确率。如DY-MobileNetV3-Small比MobileNetV3-Small准确率高2.9%，展示了动态卷积的有效性。
Network#ParamMAddsTop-1Top-5MobileNetV2 × 1.03.5M300.0M72.091.0DY-MobileNetV2 × 1.011.1M312.9M75.2 (3.2)92.1 (1.1)MobileNetV2 × 0.752.6M209.0M69.889.6DY-MobileNetV2 × 0.757.0M217.5M73.7 (3.9)91.3 (1.7)MobileNetV2 × 0.52.0M97.0M65.486.4DY-MobileNetV2 × 0.54.0M101.4M69.9 (4.5)89.0 (2.6)MobileNetV2 × 0.351.7M59.2M60.382.9DY-MobileNetV2 × 0.352.8M62.0M65.9 (5.6)86.4 (3.5)MobileNetV3-Small2.9M66.0M67.486.4DY-MobileNetV3-Small4.8M68.5M70.3 (2.9)88.7 (2.3)ResNet-1811.1M1.81G70.489.7DY-ResNet-1842.7M1.85G72.7 (2.3)90.7 (1.0)ResNet-105.2M0.89G63.585.0DY-ResNet-1018.6M0.91G67.7 (4.2)87.6 (2.6) 表格中，“#Param”表示模子参数数量，“MAdds”表示乘加运算量，“Top-1”和“Top-5”分别代表在ImageNet分类任务中预测效果排名前1和前5的准确率。括号内的数值是与对应静态模子相比，动态卷积模子在Top-1或Top-5准确率上的提拔幅度。
六、DY-CNNs在人体姿态估计中的应用

6.1 实现细节

使用COCO 2017数据集评估动态卷积在单人关键点检测任务中的性能。实现两种网络类型，类型A在头部用反卷积，类型B在头部用上采样和瓶颈残差块。每个动态卷积层用                                  K                      =                      4                            K = 4                K=4个卷积核，训练时举行多种数据增强，使用Adam优化器和特定学习率调整策略。
6.2 主要效果和溶解实验

在骨干网络和头部使用动态卷积，均能提拔关键点检测的AP值。类型A中，动态卷积在差别骨干网络上AP值有显着提拔；类型B中，动态卷积同样优于静态卷积。溶解实验表明，骨干网络和头部的动态卷积都对性能有帮助，且骨干网络贡献更大。
七、结论

动态卷积通过动态聚合卷积核，有效提拔模子表征能力，盘算资本增长极少。在图像分类和人体姿态估计任务中体现出色，可轻松集成到现有CNN架构。渴望动态卷积成为高效网络架构的重要组件，推动深度学习技能发展。
八、展望

将来，动态卷积有望在更多领域应用，如目标检测、语义分割等。进一步优化动态卷积的盘算效率和训练方法，探索其与其他先进技能联合的大概性，将为深度学习发展带来更多机遇。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)