IT评测·应用市场-qidao123.com

标题: 动态卷积:提拔神经网络性能的利器 [打印本页]

作者: 傲渊山岳    时间: 2025-3-21 02:09
标题: 动态卷积:提拔神经网络性能的利器
摘要:本文先容动态卷积,它通过动态聚合多个卷积核提拔模子表征能力,盘算资本增长极少。文章阐述其原理、与相干工作差异,在ImageNet分类和COCO关键点检测实验中效果显著。
关键词:动态卷积;卷积神经网络;留意力机制;图像分类;人体姿态估计
一、弁言

在深度学习领域,卷积神经网络(CNNs)是众多任务的焦点技能。随着移动设备和边沿盘算的兴起,轻量级CNNs的研究变得愈发重要。然而,轻量级CNNs常因盘算预算低,限定网络深度和宽度,导致性能降落。本文提出的动态卷积,为办理这一问题提供了新思绪,在不增长网络深度和宽度的情况下,有效提拔模子复杂度和性能。
二、相干工作

2.1 高效CNNs

为设计高效CNNs,研究者提出多种方法。SqueezeNet利用1×1卷积减少参数;MobileNet系列通过深度可分离卷积等优化盘算量;ShuffleNet采用通道混洗低落1×1卷积盘算量;ShiftNet用移位操作和逐点卷积替换空间卷积。这些方法从差别角度优化网络布局,但在极低盘算约束下,性能仍受影响。
2.2 模子压缩和量化

模子压缩和量化方法,如剪枝、量化等,可减小模子巨细、低落盘算量,与动态卷积方法互补,能进一步优化模子性能。
2.3 动态深度神经网络

动态神经网络专注于根据输入图像跳过模子部分内容。但现有工作多为静态卷积核、动态网络布局,且需额外控制器。动态卷积则是动态卷积核、静态网络布局,无需额外控制器,可端到端训练,效率和性能更优。
2.4 神经架构搜索

神经架构搜索(NAS)能寻找高精度和硬件感知的高效网络架构。动态卷积可用于NAS找到的先进架构,还能丰富搜索空间,提拔网络性能。
三、动态卷积神经网络

3.1 预备知识:动态感知器


传统静态感知器公式为                                   y                         =                         g                         (                                   W                            T                                  x                         +                         b                         )                              y = g(W^{T}x + b)                  y=g(WTx+b) ,动态感知器则通过聚合多个线性函数界说:
                                    y                         =                         g                         (                                              W                               ~                                      T                                  (                         x                         )                         x                         +                                   b                            ~                                  (                         x                         )                         )                              y = g(\tilde{W}^{T}(x)x+\tilde{b}(x))                  y=g(W~T(x)x+b~(x))
                                              W                            ~                                  (                         x                         )                         =                                   ∑                                       k                               =                               1                                      K                                            π                            k                                  (                         x                         )                                              W                               ~                                      k                                       \tilde{W}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{W}_{k}                  W~(x)=∑k=1K​πk​(x)W~k​
                                              b                            ~                                  (                         x                         )                         =                                   ∑                                       k                               =                               1                                      K                                            π                            k                                  (                         x                         )                                              b                               ~                                      k                                       \tilde{b}(x)=\sum_{k = 1}^{K}\pi_{k}(x)\tilde{b}_{k}                  b~(x)=∑k=1K​πk​(x)b~k​
                                    s                         .                         t                         .                         0                         ≤                                   π                            k                                  (                         x                         )                         ≤                         1                              s.t.0\leq\pi_{k}(x)\leq1                  s.t.0≤πk​(x)≤1
                                              ∑                                       k                               =                               1                                      K                                            π                            k                                  (                         x                         )                         =                         1                              \sum_{k = 1}^{K}\pi_{k}(x)=1                  ∑k=1K​πk​(x)=1
其中,                                             π                            k                                  (                         x                         )                              \pi_{k}(x)                  πk​(x)是留意力权重,使聚合后的模子成为非线性函数,增强了表征能力。与静态感知器相比,动态感知器模子尺寸更大,但盘算留意力权重和聚合参数的额外盘算量,在卷积层中可忽略不计。
3.2 动态卷积


动态卷积是满足盘算约束的特别动态感知器。它有                                   K                              K                  K个类似巨细和输入/输出维度的卷积核,通过留意力权重                                             π                            k                                       \pi_{k}                  πk​聚合。在构建动态卷积层时,会在聚合卷积后使用批量归一化和激活函数。
盘算留意力时,应用挤压激励模块,先全局平均池化,再经两个全连接层和softmax函数生成归一化留意力权重。与SENet差别,动态卷积在卷积核上盘算留意力,盘算资本低。聚合卷积核时,因卷积核尺寸小,盘算效率高,额外盘算量可忽略不计,且不增长输出维度。动态卷积可直接替换现有CNN架构中的各类卷积,与其他算子和激活函数互补。
四、训练深度DY-CNNs的两个看法

4.1 看法1:留意力和为1

训练深度DY-CNNs需联合优化卷积核和留意力模子。将留意力输出约束为                                             ∑                            k                                            π                            k                                  (                         x                         )                         =                         1                              \sum_{k}\pi_{k}(x)=1                  ∑k​πk​(x)=1,能使聚合后的卷积核在卷积核空间的凸包内,简化留意力模子                                             π                            k                                  (                         x                         )                              \pi_{k}(x)                  πk​(x)的学习,softmax是实现该约束的常用选择。

对约束条件                                             ∑                            k                                            π                            k                                  (                         x                         )                         =                         1                              \sum_{k}\pi_{k}(x) = 1                  ∑k​πk​(x)=1的分析。它将聚合卷积核                                             ∑                            k                                            π                            k                                                       W                               ~                                      k                                       \sum_{k}\pi_{k}\tilde{W}_{k}                  ∑k​πk​W~k​的空间从两个棱锥(在CondConv [37]中使用)压缩为一个三角形。通过对留意力总和举行归一化,一条红线被压缩成一个点。
4.2 看法2:训练初期靠近均匀的留意力

在训练初期,靠近均匀的留意力有助于更多卷积核同时优化。但传统softmax输出靠近one-hot,倒霉于多卷积核优化。通过在softmax中引入较大温度参数                                   τ                              \tau                  τ,可使留意力更均匀,提拔训练效率。温度退火策略,即训练前10个epoch将                                   τ                              \tau                  τ从30线性减到1,还能进一步提高准确率。
4.3 与同期工作的关系

与同期的CondConv相比,动态卷积的留意力盘算方式差别。CondConv使用sigmoid盘算留意力,卷积核空间大,学习留意力模子困难。动态卷积每层卷积核更少、模子更小、盘算量更低,但准确率更高。
五、实验:ImageNet图像分类

5.1 实现细节

在ResNet、MobileNetV2和MobileNetV3三种架构上评估动态卷积,除第一层外,每层使用                                   K                         =                         4                              K = 4                  K=4个卷积核,批量巨细设为256。差别架构训练设置差别,包罗学习率调整策略、权重衰减、优化器和随机失活率等。
5.2 研究DY-CNN

通过改变卷积核聚合方式和跨图像打乱留意力,验证DY-CNN的动态特性。实验表明,改变聚合方式会使性能显著降落,分析卷积核具有多样性;跨图像打乱留意力后准确率低落,证明留意力与输入相干。别的,研究发现留意力在低层级平坦、高层级稀疏,影响差别层的性能。
5.3 溶解研究

对DY-MobileNetV2和DY-MobileNetV3举行多项溶解实验。研究卷积核数量                                   K                              K                  K发现,                                   K                              K                  K增大模子表示能力增强,但超过4后准确率不再提拔,且易过拟合。在差别层使用动态卷积实验中,使用动态卷积的层越多,准确率越高,末了一个1×1卷积使用动态卷积效果最佳。Softmax温度实验表现,                                   τ                         =                         30                              \tau = 30                  τ=30时性能最好,温度退火可进一步提高准确率。对比动态卷积与挤压激励(SE),发现两者可协同提拔性能。
5.4 主要效果

在三种CNN架构中,动态卷积均显著优于静态卷积,仅增长约4%盘算量,就能大幅提拔Top-1准确率。如DY-MobileNetV3-Small比MobileNetV3-Small准确率高2.9%,展示了动态卷积的有效性。
Network#ParamMAddsTop-1Top-5MobileNetV2 × 1.03.5M300.0M72.091.0DY-MobileNetV2 × 1.011.1M312.9M75.2 (3.2)92.1 (1.1)MobileNetV2 × 0.752.6M209.0M69.889.6DY-MobileNetV2 × 0.757.0M217.5M73.7 (3.9)91.3 (1.7)MobileNetV2 × 0.52.0M97.0M65.486.4DY-MobileNetV2 × 0.54.0M101.4M69.9 (4.5)89.0 (2.6)MobileNetV2 × 0.351.7M59.2M60.382.9DY-MobileNetV2 × 0.352.8M62.0M65.9 (5.6)86.4 (3.5)MobileNetV3-Small2.9M66.0M67.486.4DY-MobileNetV3-Small4.8M68.5M70.3 (2.9)88.7 (2.3)ResNet-1811.1M1.81G70.489.7DY-ResNet-1842.7M1.85G72.7 (2.3)90.7 (1.0)ResNet-105.2M0.89G63.585.0DY-ResNet-1018.6M0.91G67.7 (4.2)87.6 (2.6) 表格中,“#Param”表示模子参数数量,“MAdds”表示乘加运算量,“Top-1”和“Top-5”分别代表在ImageNet分类任务中预测效果排名前1和前5的准确率。括号内的数值是与对应静态模子相比,动态卷积模子在Top-1或Top-5准确率上的提拔幅度 。
六、DY-CNNs在人体姿态估计中的应用

6.1 实现细节

使用COCO 2017数据集评估动态卷积在单人关键点检测任务中的性能。实现两种网络类型,类型A在头部用反卷积,类型B在头部用上采样和瓶颈残差块。每个动态卷积层用                                   K                         =                         4                              K = 4                  K=4个卷积核,训练时举行多种数据增强,使用Adam优化器和特定学习率调整策略。
6.2 主要效果和溶解实验

在骨干网络和头部使用动态卷积,均能提拔关键点检测的AP值。类型A中,动态卷积在差别骨干网络上AP值有显着提拔;类型B中,动态卷积同样优于静态卷积。溶解实验表明,骨干网络和头部的动态卷积都对性能有帮助,且骨干网络贡献更大。
七、结论

动态卷积通过动态聚合卷积核,有效提拔模子表征能力,盘算资本增长极少。在图像分类和人体姿态估计任务中体现出色,可轻松集成到现有CNN架构。渴望动态卷积成为高效网络架构的重要组件,推动深度学习技能发展。
八、展望

将来,动态卷积有望在更多领域应用,如目标检测、语义分割等。进一步优化动态卷积的盘算效率和训练方法,探索其与其他先进技能联合的大概性,将为深度学习发展带来更多机遇。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4