[论文阅读]Deeply-Supervised Nets

打印 上一主题 下一主题

主题 1751|帖子 1751|积分 5253

择要

我们提出的深度监督网络(DSN)方法在最小化分类误差的同时,使隐藏层的学习过程更加直接和透明。我们实行通过研究深度网络中的新公式来提拔分类性能。我们关注卷积神经网络(CNN)架构中的三个方面:(1)中心层对整体分类的透明性;(2)学习特征的区分性和鲁棒性,特殊是在早期层;(3)由于梯度爆炸和梯度消失题目,练习效果的有效性。我们引入了“伴随目标”,除了输出层的整体目标外,还为每个隐藏层引入了独立的目标(这与逐层预练习策略不同)。我们扩展了随机梯度方法中的技术来分析我们的算法。我们方法的优势显而易见,实行效果表明,在基准数据集上的实行效果(如MNIST、CIFAR-10、CIFAR-100和SVHN)相较于现有方法显着提高了性能。
1.简介

近年来,神经网络,尤其是深度学习(DL)得到了广泛关注,深度学习可以是无监督的[10]、有监督的[12],或是混淆形式的[18]。当深度学习技术用于图像分类[11, 16]和语音辨认[4]时,尤其是在大量练习数据的情况下,已经观察到显着的性能提拔。一方面,条理化和递归网络[7, 10, 12]在自动学习数千甚至数百万个特征以举行模式辨认方面展现了巨大的潜力;另一方面,关于深度学习的担心也被提出,许多基本题目仍然悬而未解。
当前深度学习(DL)框架的潜在题目包括:隐藏层学习到的特征的透明度和区分性降低[31];由于梯度爆炸和梯度消失导致的练习困难[8, 22];尽管在理论方面做出了一些实行,但仍缺乏对算法活动的透彻数学明确[6];对大量练习数据的依赖[11];练习过程中的手动调参复杂度[15]。尽管如此,深度学习能够在一个集成框架中自动学习和融合丰富的条理化特征。近来的开源活动和经验分享[11, 5, 2]也极大促进了深度学习在机器学习社区及其他领域的采纳和发展。为了增强深度学习的性能,除了各种工程技巧(如调解特征规模、步长和收敛速率),还提出了许多技术,如dropout[11]、dropconnect[19]、预练习[4]和数据增强[24]。CNN算法[12]自动学习的特征是直观的[31]。一些特征,特殊是早期层的特征,也体现出肯定程度的不透明性[31]。这一发现与另一个观察同等,即特征学习早期层的不同初始化对最终分类几乎没有影响[4]。别的,梯度消失的存在也使得深度学习的练习变得缓慢且低效[8]。在本文中,我们通过提出一种新算法——深度监督网络(DSN),来办理深度学习中的特征学习题目,该算法对隐藏层和输出层都举行直接和早期的监督。我们为每个隐藏层引入伴随目标,作为学习过程中的附加束缚(或新正则化)。我们新的公式显着提拔了现有监督深度学习方法的性能。我们还实行使用随机梯度技术为我们的公式提供理论依据。我们展示了在假设优化函数具有局部强凸性(这一假设较为宽松,但指向了一个有前景的方向)下,所提方法在收敛速率上的改进。
有几种现有方法特殊值得提及,并与我们的方法举行比较。在[1]中,举行了逐层监督预练习。我们提出的方法不举行预练习,而是强调最小化输出分类误差,同时减少每个单独层的预测误差。这一点很紧张,因为反向传播是在一个集成框架中同时举行的。在[26]中,标签信息被用于无监督学习。深度学习中也举行了半监督学习[30]。在[28]中,输出层使用了SVM分类器,而不是CNN[12]中的标准softmax函数。我们的框架(DSN),在选择使用SVM、softmax或其他分类器时,强调了对每个中心层的直接监督。在实行中,我们展示了DSN-SVM和DSN-Softmax在CNN-SVM和CNN-Softmax上的同等性改进。我们观察到在MNIST、CIFAR-10、CIFAR-100和SVHN上的全部最新技术效果。值得一提的是,我们的公式也包含了近来提出的各种技术,如均匀[24]、dropconnect[19]和Maxout[9]。我们预计通过对DSN举行经心工程计划,能进一步减少分类误差。

2.深度监督网络

在本节中,我们给出了所提出的深度监督网络(DSN)的主要公式。我们专注于围绕有监督的CNN风格框架[12,5,2]构建我们的基础设施,通过向每一层引入分类器,例如SVM模型[29]。[28]中有一个早期的将SVM与DL结合的实行,但与我们的动机不同,只研究了输出层,有一些开端的实行效果。
2.1 动机

我们的动机来源于以下简朴的观察:通常来说,基于高度可区分特征练习的鉴别分类器,其体现会比基于较少可区分特征练习的鉴别分类器更好。如果所讨论的特征是深度网络中的隐藏层特征图,这一观察意味着,使用这些隐藏层特征图练习的鉴别分类器的体现,可以作为这些隐藏层特征图质量/区分性的署理,进而作为上层特征图质量的署理。通过在网络的每个隐藏层适当利用这种特征质量反馈,我们能够直接影响隐藏层权重/滤波器的更新过程,从而偏向于生成高度可区分的特征图。这是一种在网络内部每一层深处起作用的监督方式;当我们的特征质量署理良好时,我们预期能够比仅依赖于从输出层举行的渐渐反向传播更快地靠近良好特征的区域。我们还预期能缓解“爆炸”或“消失”梯度的常见题目。直接追求每一隐藏层特征区分性的一个顾虑是,这可能会干扰整体网络的体现,因为最终用于最终分类的特征图是输出层的特征图;但我们的实行效果表明,这种情况并不存在。
我们的基本网络架构将雷同于CNN框架中使用的标准架构。我们额外的深度反馈通过将每个隐藏层与一个伴随的局部输出关联来引入。我们可以将这个伴随局部输出看作是一个被截断的网络最终会产生的输出的类比。现在,误差的反向传播按常规举行,关键的不同在于,我们不仅从最终层举行反向传播,还同时从我们的局部伴随输出举行反向传播。实行效果表明,伴随目标具有以下主要特性:(1)它充当一种特征正则化(尽管是不同寻常的),能够显着减少测试误差,但不肯定减少练习误差;(2)它导致更快的收敛,尤其是在练习数据较少的情况下(见图(2),它展示了一个运行示例)。
2.2 公式化

我们专注于监督学习情况,并设定                                    S                         =                         {                         (                                   X                            i                                  ,                                   y                            i                                  )                         ,                         i                         =                         1..                         N                         }                              S = \{(X_i, y_i), i = 1..N\}                  S={(Xi​,yi​),i=1..N} 作为我们的输入练习数据集,其中样本                                              X                            i                                  ∈                                   R                            n                                       X_i \in \mathbb{R}^n                  Xi​∈Rn 表示原始输入数据,                                             y                            i                                  ∈                         {                         1                         ,                         …                         ,                         K                         }                              y_i \in \{1, \dots, K\}                  yi​∈{1,…,K} 是样本                                              X                            i                                       X_i                  Xi​ 对应的真实标签。为了简化记法,我们省略了索引                                    i                              i                  i,因为每个样本都是独立思量的。深度网络,特殊是卷积神经网络(CNN)的目标[12]是学习滤波器和权重,以最小化输出层的分类误差。在这里,我们将偏置项合并到权重参数中,并且不区分滤波器和权重,界说每一层                                    m                         =                         1..                         M                              m = 1..M                  m=1..M 的递归函数为:
                                                                                                     Z                                                       (                                           m                                           )                                                                =                                     f                                     (                                                   Q                                                       (                                           m                                           )                                                                )                                     ,                                                               Z                                                       (                                           0                                           )                                                                =                                     X                                     ,                                                                            (1)                                                       Z^{(m)} = f(Q^{(m)}), \quad Z^{(0)} = X, \tag{1}                     Z(m)=f(Q(m)),Z(0)=X,(1)
                                                                                                     Q                                                       (                                           m                                           )                                                                =                                                   W                                                       (                                           m                                           )                                                                ∗                                                   Z                                                       (                                           m                                           −                                           1                                           )                                                                .                                                                            (2)                                                       Q^{(m)} = W^{(m)} * Z^{(m-1)}. \tag{2}                     Q(m)=W(m)∗Z(m−1).(2)
其中,                                   M                              M                  M 表示层的总数;                                             W                                       (                               m                               )                                            ,                         m                         =                         1..                         M                              W^{(m)}, m = 1..M                  W(m),m=1..M 是要学习的滤波器/权重;                                             Z                                       (                               m                               −                               1                               )                                                 Z^{(m-1)}                  Z(m−1) 是第                                    m                         −                         1                              m-1                  m−1 层生成的特征图;                                             Q                                       (                               m                               )                                                 Q^{(m)}                  Q(m) 表示对前一层特征图举行卷积/滤波后的相应;                                   f                         (                         )                              f()                  f() 是对                                    Q                              Q                  Q 的池化函数;将全部层的权重组合为:
                                                                                       W                                     =                                     (                                                   W                                                       (                                           1                                           )                                                                ,                                     …                                     ,                                                   W                                                       (                                           M                                           )                                                                )                                     .                                                                            (1)                                                       W = (W^{(1)}, \dots, W^{(M)}).\tag{1}                     W=(W(1),…,W(M)).(1)
现在我们引入一组分类器,例如SVM(可以应用其他分类器如Softmax,我们将在实行中展示使用SVM和Softmax的效果),每个隐藏层一个分类器,界说为:
                                                                                       w                                     =                                     (                                                   w                                                       (                                           1                                           )                                                                ,                                     …                                     ,                                                   w                                                       (                                           M                                           −                                           1                                           )                                                                )                                     ,                                                                            (2)                                                       w = (w^{(1)}, \dots, w^{(M-1)}),\tag{2}                     w=(w(1),…,w(M−1)),(2)
除了标准CNN框架中的                                    W                              W                  W 。我们将                                              w                                       (                               o                               u                               t                               )                                                 w^{(out)}                  w(out) 表示为输出层的SVM权重。因此,我们构建整体的组合目标函数为:
                                                                                       ∥                                                   w                                                       (                                           o                                           u                                           t                                           )                                                                              ∥                                        2                                                  +                                     L                                     (                                     W                                     ,                                                   w                                                       (                                           o                                           u                                           t                                           )                                                                )                                     +                                                   ∑                                                       m                                           =                                           1                                                                     M                                           −                                           1                                                                              α                                        m                                                  [                                     ∥                                                   w                                                       (                                           m                                           )                                                                              ∥                                        2                                                  +                                     ℓ                                     (                                     W                                     ,                                                   w                                                       (                                           m                                           )                                                                )                                     −                                     γ                                                   ]                                        +                                                                                         (3)                                                       \| w^{(out)} \|^2 + L(W, w^{(out)}) + \sum_{m=1}^{M-1} \alpha_m [\| w^{(m)} \|^2 + \ell(W, w^{(m)}) - \gamma ]_+ \tag{3}                     ∥w(out)∥2+L(W,w(out))+m=1∑M−1​αm​[∥w(m)∥2+ℓ(W,w(m))−γ]+​(3)
其中,
                                                                                       L                                     (                                     W                                     ,                                                   w                                                       (                                           o                                           u                                           t                                           )                                                                )                                     =                                                   ∑                                                                       y                                              k                                                          ≠                                           y                                                                [                                     1                                     −                                     ⟨                                                   w                                                       (                                           o                                           u                                           t                                           )                                                                ,                                     ϕ                                     (                                                   Z                                                       (                                           M                                           )                                                                ,                                     y                                     )                                     −                                     ϕ                                     (                                                   Z                                                       (                                           M                                           )                                                                ,                                                   y                                        k                                                  )                                     ⟩                                                   ]                                        +                                        2                                                                                         (4)                                                       L(W, w^{(out)}) = \sum_{y_k \neq y} [ 1 - \langle w^{(out)}, \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \rangle ]^2_+ \tag{4}                     L(W,w(out))=yk​=y∑​[1−⟨w(out),ϕ(Z(M),y)−ϕ(Z(M),yk​)⟩]+2​(4)

                                                                                       ℓ                                     (                                     W                                     ,                                                   w                                                       (                                           m                                           )                                                                )                                     =                                                   ∑                                                                       y                                              k                                                          ≠                                           y                                                                [                                     1                                     −                                     ⟨                                                   w                                                       (                                           m                                           )                                                                ,                                     ϕ                                     (                                                   Z                                                       (                                           m                                           )                                                                ,                                     y                                     )                                     −                                     ϕ                                     (                                                   Z                                                       (                                           m                                           )                                                                ,                                                   y                                        k                                                  )                                     ⟩                                                   ]                                        +                                        2                                                                                         (5)                                                       \ell(W, w^{(m)}) = \sum_{y_k \neq y} [ 1 - \langle w^{(m)}, \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \rangle ]^2_+ \tag{5}                     ℓ(W,w(m))=yk​=y∑​[1−⟨w(m),ϕ(Z(m),y)−ϕ(Z(m),yk​)⟩]+2​(5)
我们将                                    L                         (                         W                         ,                                   w                                       (                               M                               )                                            )                              L(W, w^{(M)})                  L(W,w(M))(应该是                                   L                         (                         W                         ,                                   w                                       (                               o                               u                               t                               )                                            )                              L(W, w^{(out)})                  L(W,w(out))) 称为整体损失(输出层),将                                    ℓ                         (                         W                         ,                                   w                                       (                               m                               )                                            )                              \ell(W, w^{(m)})                  ℓ(W,w(m)) 称为伴随损失(隐藏层),这两个损失都是预测误差的平方和。上述公式可以直观地明确:除了学习卷积核和权重                                              W                            ∗                                       W^*                  W∗ 外,就像标准CNN框架[12]一样,我们还强制添加了一个束缚,要求在每个隐藏层中直接影响每个层的学习,进而推动每一层学习到具有区分性和合理性的特征。在式 (3) 中,                                   ∥                                   w                                       (                               o                               u                               t                               )                                                      ∥                            2                                       \| w^{(out)} \|^2                  ∥w(out)∥2 和                                    L                         (                         W                         ,                                   w                                       (                               o                               u                               t                               )                                            )                              L(W, w^{(out)})                  L(W,w(out)) 分别表示输出层SVM分类器的边际宁静方hinge损失(L2SVM)[4];在式 (3) 中,                                   ∥                                   w                                       (                               m                               )                                                      ∥                            2                                       \| w^{(m)} \|^2                  ∥w(m)∥2 和                                    ℓ                         (                         W                         ,                                   w                                       (                               m                               )                                            )                              \ell(W, w^{(m)})                  ℓ(W,w(m)) 分别是每个隐藏层SVM分类器的边际宁静方hinge损失。需要注意的是,                                             w                                       (                               m                               )                                                 w^{(m)}                  w(m) 直接依赖于                                              Z                                       (                               m                               )                                                 Z^{(m)}                  Z(m),而                                              Z                                       (                               m                               )                                                 Z^{(m)}                  Z(m) 取决于                                              W                            1                                  ,                         …                         ,                                   W                            m                                       W^1, \dots, W^m                  W1,…,Wm 直到第                                    m                              m                  m 层。                                   L                         (                         W                         ,                                   w                                       (                               o                               u                               t                               )                                            )                              L(W, w^{(out)})                  L(W,w(out)) 依赖于                                              w                                       (                               o                               u                               t                               )                                                 w^{(out)}                  w(out),它由整个                                    W                              W                  W 决定。式 (3) 中的第二项通常随着练习过程的举行,逐渐趋向于零;如许,输出层的分类没有改变,伴随目标仅作为一个署理举行正则化。通过将                                    γ                              \gamma                  γ 作为阈值(一个超参数),在式 (3) 中,我们得到当隐藏层达到或低于                                    γ                              \gamma                  γ 时,整体损失的影响消失(变为0),不再加入练习过程。                                             α                            m                                       \alpha_m                  αm​ 平衡了输出层损失与伴随损失的影响。在练习中,我们还可以使用渐渐衰减因子,例如                                              α                            m                                  ≈                         0.1                         ×                         (                         1                         −                         t                         /                         N                         )                         →                                   α                            m                                       \alpha_m \approx 0.1 \times (1 - t / N) \to \alpha_m                  αm​≈0.1×(1−t/N)→αm​,以强制第二项在肯定的迭代次数后消失,其中                                    t                              t                  t 是当前练习轮次,                                   N                              N                  N 是总练习轮数(这个衰减因子在不同实行条件下也许会厘革但是这个差异可能不会很大)。
总结来说,我们形貌这个优化题目如下:我们盼望学习整个网络的滤波器/权重                                    W                              W                  W,使得在输出特征图上练习的SVM分类器                                              w                                       (                               o                               u                               t                               )                                                 w^{(out)}                  w(out) 能够体现出良好的性能。我们追求输出性能的同时,还要求隐藏层分类器能够达到某种“令人满意”的性能。我们的意思是:将注意力集中于特征空间的部分区域,当思量到内部层时,可以得到高度区分性的隐藏层特征图(通过我们对隐藏层分类器性能的署理来衡量)。公式 (3) 和以往的逐层监督练习的主要区别在于,我们在优化过程中同时举行正则化(或规范化)隐藏层。例如,逐层的贪婪预练习要么作为初始化举行,要么作为微调举行,最终可能导致某些过拟合[1]。最新的基准效果展示了我们公式的特殊优势。如图2©所示,现实上CNN和DSN都达到了靠近零的练习误差,但DSN在更好的一般化能力方面展现出了显着的优势。(感觉DSN显着的error更小啊)

为了使用SGD练习DSN模型,模型参数关于目标函数的梯度为:
                                                                ∂                                  F                                                      ∂                                               w                                                   (                                        o                                        u                                        t                                        )                                                                          =                            2                                       w                                           (                                  o                                  u                                  t                                  )                                                 −                            2                                       ∑                                                        y                                     k                                              ≠                                  y                                                            [                               ϕ                               (                                           Z                                               (                                     M                                     )                                                      ,                               y                               )                               −                               ϕ                               (                                           Z                                               (                                     M                                     )                                                      ,                                           y                                  k                                          )                               ]                                                             [                                  1                                  −                                  ⟨                                               w                                                   (                                        o                                        u                                        t                                        )                                                           ,                                  ϕ                                  (                                               Z                                                   (                                        M                                        )                                                           ,                                  y                                  )                                  −                                  ϕ                                  (                                               Z                                                   (                                        M                                        )                                                           ,                                               y                                     k                                              )                                  ⟩                                  ]                                          +                                            \frac{\partial F}{\partial w^{(out)}} = 2 w^{(out)} - 2 \sum_{y_k \neq y} \left[ \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \right] \left[ 1 - \langle w^{(out)}, \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \rangle \right]_+                     ∂w(out)∂F​=2w(out)−2yk​=y∑​[ϕ(Z(M),y)−ϕ(Z(M),yk​)][1−⟨w(out),ϕ(Z(M),y)−ϕ(Z(M),yk​)⟩]+​
                                                                ∂                                  F                                                      ∂                                               w                                                   (                                        m                                        )                                                                          =                                       {                                                                                                                      α                                                 m                                                                               {                                                 2                                                                   w                                                                       (                                                       m                                                       )                                                                                    −                                                 2                                                                   ∑                                                                                           y                                                          k                                                                          ≠                                                       y                                                                                                      [                                                    ϕ                                                    (                                                                       Z                                                                           (                                                          m                                                          )                                                                                         ,                                                    y                                                    )                                                    −                                                    ϕ                                                    (                                                                       Z                                                                           (                                                          m                                                          )                                                                                         ,                                                                       y                                                       k                                                                      )                                                    ]                                                                                                       [                                                       1                                                       −                                                       ⟨                                                                           w                                                                               (                                                             m                                                             )                                                                                              ,                                                       ϕ                                                       (                                                                           Z                                                                               (                                                             m                                                             )                                                                                              ,                                                       y                                                       )                                                       −                                                       ϕ                                                       (                                                                           Z                                                                               (                                                             m                                                             )                                                                                              ,                                                                           y                                                          k                                                                          )                                                       ⟩                                                       ]                                                                      +                                                                  }                                                              ,                                                                                                            otherwise                                                                                                                                   0                                              ,                                                                                                                            if                                               ∥                                                               w                                                                   (                                                    m                                                    )                                                                                                ∥                                                 2                                                              +                                              ℓ                                              (                                              W                                              ,                                                               w                                                                   (                                                    m                                                    )                                                                               )                                              ≤                                              γ                                                                                                             \frac{\partial F}{\partial w^{(m)}} = \begin{cases} \alpha_m \left\{ 2 w^{(m)} - 2 \sum_{y_k \neq y} \left[ \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \right] \left[ 1 - \langle w^{(m)}, \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \rangle \right]_+ \right\}, & \text{otherwise} \\ 0, & \text{if} \ \| w^{(m)} \|^2 + \ell(W, w^{(m)}) \leq \gamma \end{cases}                     ∂w(m)∂F​={αm​{2w(m)−2∑yk​=y​[ϕ(Z(m),y)−ϕ(Z(m),yk​)][1−⟨w(m),ϕ(Z(m),y)−ϕ(Z(m),yk​)⟩]+​},0,​otherwiseif ∥w(m)∥2+ℓ(W,w(m))≤γ​
                                    W                              W                  W 的梯度依照传统的CNN基础模型再加上来自隐藏层监督的梯度。
接下来,我们将举行更多讨论,并实行直观明确我们的公式(公式 (3)。为了方便参考,我们将目标函数写成:
                                                                                       F                                     (                                     W                                     )                                     ≡                                     P                                     (                                     W                                     )                                     +                                     Q                                     (                                     W                                     )                                     ,                                                                            (7)                                                       F(W) \equiv P(W) + Q(W), \tag{7}                     F(W)≡P(W)+Q(W),(7)
其中:
                                         P                            (                            W                            )                            =                            ∥                                       w                                           (                                  o                                  u                                  t                                  )                                                            ∥                               2                                      +                            L                            (                            W                            ,                                       w                                           (                                  o                                  u                                  t                                  )                                                 )                            ,                                     Q                            (                            W                            )                            =                                       ∑                                           m                                  =                                  1                                                      M                                  −                                  1                                                            α                               m                                      ∥                                       w                                           (                                  m                                  )                                                            ∥                               2                                      +                            ℓ                            (                            W                            ,                                       w                                           (                                  m                                  )                                                 )                            −                            γ                                       ∥                               +                                      .                                  P(W) = \| w^{(out)} \|^2 + L(W, w^{(out)}), \quad Q(W) = \sum_{m=1}^{M-1} \alpha_m \| w^{(m)} \|^2 + \ell(W, w^{(m)}) - \gamma \|_+.                     P(W)=∥w(out)∥2+L(W,w(out)),Q(W)=m=1∑M−1​αm​∥w(m)∥2+ℓ(W,w(m))−γ∥+​.
(就是简化为两部分,一部分是输出层的损失函数,另一部分是中心层的损失函数)
2.3 随机梯度降落场景

我们关注的是DSN在收敛性方面的优势,而不是对泛化方面的正则化。除了当前CNN的学习到的特征并不总是直观且具有区分性的题目之外,深度神经网络的练习难度也被讨论过[8, 22]。
从公式(1)和(2)可以看出,底层权重的厘革通过各层的函数传播,导致梯度爆炸或梯度消失[22]。为了更好地练习深度神经网络,已经提出了各种技术和参数调优技巧,如预练习和dropout[11]。在这里,我们对我们提出的公式举行了一些较为宽松的分析,旨在明确其在有效性方面的优势。
深度神经网络中的目标函数是高度非凸的。在这里,我们做出以下假设/观察:(1)深度学习的目标/能量函数在“最优”解附近存在一个较大的“平展”区域,在该区域内任何效果的性能都相似;(2)在局部范围内,我们仍然假设该函数是凸的(甚至是λ-强凸的),其优化通常通过随机梯度降落算法举行[3]。
λ-强凸的界说是标准的:一个函数                                    F                         (                         W                         )                              F(W)                  F(W) 是 λ-强凸的,如果对全部                                    W                         ,                                   W                            ′                                  ∈                         W                              W, W' \in \mathcal{W}                  W,W′∈W 和任何在                                    W                              W                  W 处的梯度                                    g                              g                  g,都有:
                                                                                       F                                     (                                                   W                                        ′                                                  )                                     ≥                                     F                                     (                                     W                                     )                                     +                                     ⟨                                     g                                     ,                                                   W                                        ′                                                  −                                     W                                     ⟩                                     +                                                   λ                                        2                                                  ∥                                                   W                                        ′                                                  −                                     W                                                   ∥                                        2                                                  ,                                                                            (8)                                                       F(W') \geq F(W) + \langle g, W' - W \rangle + \frac{\lambda}{2} \| W' - W \|^2,\tag{8}                     F(W′)≥F(W)+⟨g,W′−W⟩+2λ​∥W′−W∥2,(8)
并且随机梯度降落(SGD)在第t步中的更新规则为:
                                                    W                                           t                                  +                                  1                                                 =                                       Π                               W                                      (                                       W                               t                                      −                                       η                               t                                                 g                               ^                                      )                            ,                                  W_{t+1} = \Pi_{\mathcal{W}} (W_t - \eta_t \hat g ),                     Wt+1​=ΠW​(Wt​−ηt​g^​),
其中                                              η                            t                                  =                         Θ                         (                         1                         /                         t                         )                              \eta_t = \Theta(1/t)                  ηt​=Θ(1/t) 表示步长,                                             Π                            W                                       \Pi_{\mathcal{W}}                  ΠW​ 有助于将更新投影到                                    W                              \mathcal{W}                  W 空间。设                                              W                            ∗                                       W^*                  W∗ 为最优解,强凸函数的上界为                                    E                         [                         ∥                                   W                            T                                  −                                   W                            ∗                                            ∥                            2                                  ]                              E[\| W_T - W^* \|^2]                  E[∥WT​−W∗∥2] 和                                    E                         [                         (                         F                         (                                   W                            T                                  )                         −                         F                         (                                   W                            ∗                                  )                                   )                            2                                  ]                              E[(F(W_T) - F(W^*))^2]                  E[(F(WT​)−F(W∗))2] [23]。我们实行明确公式(8)的收敛性,具体是                                    E                         [                         (                         F                         (                                   W                            T                                  )                         −                         F                         (                                   W                            ∗                                  )                                   )                            2                                  ]                              E[(F(W_T) - F(W^*))^2]                  E[(F(WT​)−F(W∗))2],由于图1(b)中表现了大量的平展区域,导致了函数的收敛性题目。在[21]中,给出了具有组合损失和正则化项的局部凸函数的收敛速率。
公式(8)中的两项即为伴随目标。我们的动机是双重的:(1)鼓励每一层学习到的特征能够直接用于种别标签预测,同时保持输出层的最终目标是最小化种别标签预测错误;(2)缓解梯度爆炸和消失的题目,进一步提高每一层的监督能力。一种可能的担心是,学习高度区分的阶段性特征可能不肯定会导致最好的预测,如图1(b)中所示。接下来,我们对我们的方法给出了松散的理论分析,并通过全面的实行研究证明其在现有方法上的压倒性优势。
界说 我们将                                              S                            γ                                  (                         F                         )                         =                         {                         W                         :                         F                         (                         W                         )                         ≤                         γ                         }                              S_{\gamma}(F) = \{ W : F(W) \leq \gamma \}                  Sγ​(F)={W:F(W)≤γ} 称为函数                                    F                         (                         W                         )                         ≡                         P                         (                         W                         )                         +                         Q                         (                         W                         )                              F(W) \equiv P(W) + Q(W)                  F(W)≡P(W)+Q(W) 的                                    γ                              \gamma                  γ-可行集。
起首,我们证明一个                                    Q                         (                         W                         )                              Q(W)                  Q(W) 的可行解会导致                                    P                         (                         W                         )                              P(W)                  P(W) 的可行解。即:
引理 1 对于                                    m                         ,                                   m                            ′                                  =                         1..                         M                         −                         1                         ,                                    m                            ′                                  >                         m                              m, m' = 1..M-1, \, m' > m                  m,m′=1..M−1,m′>m,如果                                    ∥                                   w                                       (                               m                               )                                                      ∥                            2                                  +                         ℓ                         (                         (                                              W                               ^                                                 (                               1                               )                                            ,                         …                         ,                                              W                               ^                                                 (                               m                               )                                            )                         ,                                   w                                       (                               m                               )                                            )                         ≤                         γ                              \| w^{(m)} \|^2 + \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), w^{(m)}) \leq \gamma                  ∥w(m)∥2+ℓ((W^(1),…,W^(m)),w(m))≤γ,那么存在                                    (                                              W                               ^                                                 (                               1                               )                                            ,                         …                         ,                                              W                               ^                                                 (                               m                               )                                            ,                         …                         ,                                              W                               ^                                                 (                                           m                                  ′                                          )                                            )                              (\hat{W}^{(1)}, \dots, \hat{W}^{(m)}, \dots, \hat{W}^{(m')})                  (W^(1),…,W^(m),…,W^(m′)) 使得
                                         ∥                                       w                                           (                                               m                                     ′                                              )                                                            ∥                               2                                      +                            ℓ                            (                            (                                                   W                                  ^                                                      (                                  1                                  )                                                 ,                            …                            ,                                                   W                                  ^                                                      (                                  m                                  )                                                 )                            ,                                                   W                                  ^                                                      (                                               m                                     ′                                              )                                                 )                            ≤                            γ                            .                                  \| w^{(m')} \|^2 + \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), \hat{W}^{(m')}) \leq \gamma.                     ∥w(m′)∥2+ℓ((W^(1),…,W^(m)),W^(m′))≤γ.
证明 如图(1a)所示,假设对于                                    (                                              W                               ^                                                 (                               1                               )                                            ,                         …                         ,                                              W                               ^                                                 (                               m                               )                                            )                              (\hat{W}^{(1)}, \dots, \hat{W}^{(m)})                  (W^(1),…,W^(m)),有                                    ℓ                         (                         (                                              W                               ^                                                 (                               1                               )                                            ,                         …                         ,                                              W                               ^                                                 (                               m                               )                                            )                         ,                                   w                                       (                               m                               )                                            )                         ≤                         γ                              \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), w^{(m)}) \leq \gamma                  ℓ((W^(1),…,W^(m)),w(m))≤γ。那么,对于每一层                                    j                         >                         m                              j > m                  j>m,我们设                                              W                            ^                                  (                         j                         )                         =                         I                              \hat{W}(j) = I                  W^(j)=I 且                                              w                                       (                               j                               )                                            =                                   w                                       (                               m                               )                                                 w^{(j)} = w^{(m)}                  w(j)=w(m),这意味着滤波器将是单位矩阵。这导致了
                                         ℓ                            (                            (                                                   W                                  ^                                                      (                                  1                                  )                                                 ,                            …                            ,                                                   W                                  ^                                                      (                                  m                                  )                                                 ,                                                   W                                  ^                                                      (                                               m                                     ′                                              )                                                 )                            ,                                       w                                           (                                               m                                     ′                                              )                                                 )                            ≤                            γ                            .                                  \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}, \hat{W}^{(m')}), w^{(m')}) \leq \gamma.                     ℓ((W^(1),…,W^(m),W^(m′)),w(m′))≤γ.
备注 引理1表明,                                   Q                         (                         W                         )                              Q(W)                  Q(W) 的一个好的解也是                                    P                         (                         W                         )                              P(W)                  P(W) 的一个好的解,但反过来不肯定创建。也就是说,一个使得                                    P                         (                         W                         )                              P(W)                  P(W) 较小的                                    W                              W                  W 不肯定能够为隐藏层产生具有区分性的特征,从而使得                                    Q                         (                         W                         )                              Q(W)                  Q(W) 较小。然而,                                   Q                         (                         W                         )                              Q(W)                  Q(W) 可以被视为正则化项。由于                                    P                         (                         W                         )                              P(W)                  P(W) 在练习数据上观察到一个靠近零的非常平展的区域,最终我们关心的是测试误差,因此我们仅关注                                    W                              W                  W 和                                              W                            ∗                                       W^*                  W∗,使得                                    Q                         (                         W                         )                              Q(W)                  Q(W) 和                                    P                         (                         W                         )                              P(W)                  P(W) 都很小。因此,假设                                    F                         (                         W                         )                         ≡                         P                         (                         W                         )                         +                         Q                         (                         W                         )                              F(W) \equiv P(W) + Q(W)                  F(W)≡P(W)+Q(W) 和                                    P                         (                         W                         )                              P(W)                  P(W) 共享相同的最优解                                              W                            ∗                                       W^*                  W∗ 是通情达理的。
令                                    P                         (                         W                         )                              P(W)                  P(W) 和                                    P                         (                                   W                            ′                                  )                              P(W')                  P(W′) 在                                              W                            ∗                                       W^*                  W∗ 附近强凸,满意                                    ∥                                   W                            ′                                  −                                   W                            ∗                                            ∥                            2                                  ≤                         D                              \| W' - W^* \|^2 \leq D                  ∥W′−W∗∥2≤D 和                                    ∥                         W                         −                                   W                            ∗                                            ∥                            2                                  ≤                         D                              \| W - W^* \|^2 \leq D                  ∥W−W∗∥2≤D,且                                    P                         (                                   W                            ′                                  )                         ≥                         P                         (                         W                         )                         +                         ⟨                         g                         p                         ,                                   W                            ′                                  −                         W                         ⟩                         +                                   λ                            2                                  ∥                                   W                            ′                                  −                         W                                   ∥                            2                                       P(W') \geq P(W) + \langle gp, W' - W \rangle + \frac{\lambda}{2} \| W' - W \|^2                  P(W′)≥P(W)+⟨gp,W′−W⟩+2λ​∥W′−W∥2 和                                    Q                         (                                   W                            ′                                  )                         ≥                         Q                         (                         W                         )                         +                         ⟨                         g                         q                         ,                                   W                            ′                                  −                         W                         ⟩                              Q(W') \geq Q(W) + \langle gq, W' - W \rangle                  Q(W′)≥Q(W)+⟨gq,W′−W⟩,其中                                    g                         p                              gp                  gp 和                                    g                         q                              gq                  gq 分别是                                    P                              P                  P 和                                    Q                              Q                  Q 在                                    W                              W                  W 处的次梯度。可以直接看到,                                   F                         (                         W                         )                              F(W)                  F(W) 也是强凸的,并且对于                                    F                         (                         W                         )                              F(W)                  F(W) 在                                    W                              W                  W 处的次梯度                                    g                         f                              gf                  gf,有                                    g                         f                         =                         g                         p                         +                         g                         q                              gf = gp + gq                  gf=gp+gq。
引理 2 假设                                    E                         [                         ∥                                              g                               ^                                      p                                            ∥                            2                                  ]                         ≤                                   G                            2                                       E[\| \hat{g}_p \|^2] \leq G^2                  E[∥g^​p​∥2]≤G2 和                                    E                         [                         ∥                                              g                               ^                                      q                                            ∥                            2                                  ]                         ≤                                   G                            2                                       E[\| \hat{g}_q \|^2] \leq G^2                  E[∥g^​q​∥2]≤G2,并且我们使用更新规则                                              W                                       t                               +                               1                                            =                                   Π                            W                                  (                                   W                            t                                  −                                   η                            t                                  (                                   g                            p                                  t                         +                                   g                            q                                  t                         )                         )                              W_{t+1} = \Pi_{\mathcal{W}} (W_t - \eta_t (g_p t + g_q t))                  Wt+1​=ΠW​(Wt​−ηt​(gp​t+gq​t)),其中                                    E                         [                                              g                               ^                                      p                                  t                         ]                         =                                   g                            p                                  t                              E[\hat{g}_p t] = g_p t                  E[g^​p​t]=gp​t 和                                    E                         [                                              g                               ^                                      q                                  t                         ]                         =                                   g                            q                                  t                              E[\hat{g}_q t] = g_q t                  E[g^​q​t]=gq​t,如果我们使用                                              η                            t                                  =                         1                         /                         (                         1                         +                         λ                         t                         )                              \eta_t = 1/(1 + \lambda t)                  ηt​=1/(1+λt),则在时间戳                                    T                              T                  T 时:
                                                                                       E                                     [                                     ∥                                                   W                                        T                                                  −                                                   W                                        ∗                                                                ∥                                        2                                                  ]                                     ≤                                                                  12                                                           G                                              2                                                                                    (                                                           λ                                              1                                                          +                                                           λ                                              2                                                                          )                                              2                                                          T                                                                                                       (9)                                                       E[\| W_T - W^* \|^2] \leq \frac{12G^2}{(\lambda_1 + \lambda_2)^2 T} \tag{9}                     E[∥WT​−W∗∥2]≤(λ1​+λ2​)2T12G2​(9)
证明 由于                                    F                         (                         W                         )                         =                         P                         (                         W                         )                         +                         Q                         (                         W                         )                              F(W) = P(W) + Q(W)                  F(W)=P(W)+Q(W),可以直接得出:
                                         F                            (                                       W                               ′                                      )                            ≥                            F                            (                            W                            )                            +                            ⟨                                       g                               p                                      ,                                       W                               ′                                      −                            W                            ⟩                            +                            ⟨                                       g                               q                                      ,                                       W                               ′                                      −                            W                            ⟩                            +                                                                λ                                     1                                              +                                               λ                                     2                                                      2                                      ∥                                       W                               ′                                      −                            W                                       ∥                               2                                      .                                  F(W') \geq F(W) + \langle g_p, W' - W \rangle + \langle g_q, W' - W \rangle + \frac{\lambda_1 + \lambda_2}{2} \| W' - W \|^2.                     F(W′)≥F(W)+⟨gp​,W′−W⟩+⟨gq​,W′−W⟩+2λ1​+λ2​​∥W′−W∥2.
根据[23]中的引理1,这个上界直接创建。
引理 3 在假设引理2的基础上,但现在我们假设                                              η                            t                                  =                         1                         /                         t                              \eta_t = 1/t                  ηt​=1/t,因为                                              λ                            1                                       \lambda_1                  λ1​ 和                                              λ                            2                                       \lambda_2                  λ2​ 并非总是可用的,那么从                                    ∥                                   W                            1                                  −                                   W                            ∗                                            ∥                            2                                  ≤                         D                              \| W_1 - W^* \|^2 \leq D                  ∥W1​−W∗∥2≤D 开始,收敛速率被界定为:
                                                                                       E                                     [                                     ∥                                                   W                                        T                                                  −                                                   W                                        ∗                                                                ∥                                        2                                                  ]                                     ≤                                                   e                                                       −                                           2                                           λ                                           (                                           ln                                           ⁡                                           (                                           T                                           +                                           0.578                                           )                                           )                                                                D                                     +                                     (                                     T                                     −                                     1                                     )                                                   e                                                       −                                           2                                           λ                                           (                                           ln                                           ⁡                                           (                                           T                                           −                                           1                                           )                                           )                                                                              G                                        2                                                                                         (10)                                                       E[\| W_T - W^* \|^2] \leq e^{-2\lambda ( \ln(T + 0.578))} D + (T - 1) e^{-2\lambda (\ln(T-1))} G^2 \tag{10}                     E[∥WT​−W∗∥2]≤e−2λ(ln(T+0.578))D+(T−1)e−2λ(ln(T−1))G2(10)
证明 设                                    λ                         =                                   λ                            1                                  +                                   λ                            2                                       \lambda = \lambda_1 + \lambda_2                  λ=λ1​+λ2​,我们有:
                                         F                            (                                       W                               ∗                                      )                            −                            F                            (                                       W                               t                                      )                            ≥                            ⟨                                       g                               f                                      ,                                       W                               ∗                                      −                                       W                               t                                      ⟩                            +                                       λ                               2                                      ∥                                       W                               ∗                                      −                                       W                               t                                                 ∥                               2                                      ,                                  F(W^*) - F(W_t) \geq \langle g_f, W^* - W_t \rangle + \frac{\lambda}{2} \| W^* - W_t \|^2,                     F(W∗)−F(Wt​)≥⟨gf​,W∗−Wt​⟩+2λ​∥W∗−Wt​∥2,
并且:
                                         F                            (                                       W                               ∗                                      )                            −                            F                            (                                       W                               t                                      )                            ≥                                       λ                               2                                      ∥                                       W                               t                                      −                                       W                               ∗                                                 ∥                               2                                      .                                  F(W^*) - F(W_t) \geq \frac{\lambda}{2} \| W_t - W^* \|^2.                     F(W∗)−F(Wt​)≥2λ​∥Wt​−W∗∥2.
因此,利用                                              η                            t                                  =                         1                         /                         t                              \eta_t = 1/t                  ηt​=1/t,
                                                                                       E                                     [                                     ∥                                                   W                                                       t                                           +                                           1                                                                −                                                   W                                        ∗                                                                ∥                                        2                                                  ]                                     ≤                                     E                                     [                                     ∥                                                   W                                        t                                                  −                                                   W                                        ∗                                                                ∥                                        2                                                  ]                                     −                                     2                                                   η                                        t                                                  E                                     [                                     ⟨                                                   g                                        f                                                  ,                                                   W                                        t                                                  −                                                   W                                        ∗                                                  ⟩                                     ]                                     +                                                   G                                        2                                                  /                                                   t                                        2                                                                                         (11)                                                       E[\| W_{t+1} - W^* \|^2] \leq E[\| W_t - W^* \|^2] - 2\eta_t E[\langle g_f, W_t - W^* \rangle] + G^2 / t^2 \tag{11}                     E[∥Wt+1​−W∗∥2]≤E[∥Wt​−W∗∥2]−2ηt​E[⟨gf​,Wt​−W∗⟩]+G2/t2(11)
当                                    2                         λ                         /                         t                              2\lambda/t                  2λ/t 很小,我们有                                    1                         −                         2                         λ                         /                         t                         ≈                                   e                                       −                               2                               λ                               /                               t                                                 1 - 2\lambda/t \approx e^{-2\lambda/t}                  1−2λ/t≈e−2λ/t。
                                         E                            [                            ∥                                       W                               T                                      −                                       W                               ∗                                                 ∥                               2                                      ]                            ≤                                       e                                           −                                  2                                  λ                                  (                                               1                                     2                                              +                                               1                                     3                                              +                                  ⋯                                  +                                               1                                     T                                              )                                                 D                            +                                       G                               2                                                 ∑                                           t                                  =                                  1                                                      T                                  −                                  1                                                                        G                                  2                                                      t                                  2                                                            e                                           −                                  2                                  λ                                  (                                  ln                                  ⁡                                  (                                  T                                  −                                  1                                  )                                  −                                  ln                                  ⁡                                  (                                  t                                  )                                  )                                                       E[\| W_T - W^* \|^2] \leq e^{-2\lambda (\frac{1}{2} + \frac{1}{3} + \dots + \frac{1}{T})} D + G^2 \sum_{t=1}^{T-1} \frac{G^2}{t^2} e^{-2\lambda(\ln(T-1) - \ln(t))}                     E[∥WT​−W∗∥2]≤e−2λ(21​+31​+⋯+T1​)D+G2t=1∑T−1​t2G2​e−2λ(ln(T−1)−ln(t))
定理 1 设                                    P                         (                         W                         )                              P(W)                  P(W) 为                                              λ                            1                                       \lambda_1                  λ1​-强凸,且                                    Q                         (                         W                         )                              Q(W)                  Q(W) 为                                              λ                            2                                       \lambda_2                  λ2​-强凸,关于最优解                                              W                            ∗                                       W^*                  W∗,并且令                                              W                                       (                               F                               )                                                 W^{(F)}                  W(F) 和                                              W                                       (                               P                               )                                                 W^{(P)}                  W(P) 分别为应用SGD后经过                                    T                              T                  T 次迭代得到的解,即求解                                    P                         (                         W                         )                              P(W)                  P(W) 和                                    Q                         (                         W                         )                              Q(W)                  Q(W) 的解。我们的深度监督框架公式(3)通过:
                                                                E                                  [                                  ∥                                               W                                     T                                                   (                                        P                                        )                                                           −                                               W                                     ∗                                                           ∥                                     2                                              ]                                                      E                                  [                                  ∥                                               W                                     T                                                   (                                        P                                        )                                                           −                                               W                                     ∗                                                           ∥                                     2                                              ]                                                 =                            Θ                                       (                               1                               +                                                        λ                                     1                                     2                                                           λ                                     2                                     2                                                      )                                      ,                                  \frac{E[\| W^{(P)}_T - W^* \|^2]}{E[\| W^{(P)}_T - W^* \|^2]} = \Theta \left( 1 + \frac{\lambda_1^2}{\lambda_2^2} \right),                     E[∥WT(P)​−W∗∥2]E[∥WT(P)​−W∗∥2]​=Θ(1+λ22​λ12​​),
当                                              η                            t                                  =                         1                         /                         λ                         t                              \eta_t = 1/\lambda t                  ηt​=1/λt,并且:
                                                                E                                  [                                  ∥                                               W                                     T                                                   (                                        P                                        )                                                           −                                               W                                     ∗                                                           ∥                                     2                                              ]                                                      E                                  [                                  ∥                                               W                                     T                                                   (                                        P                                        )                                                           −                                               W                                     ∗                                                           ∥                                     2                                              ]                                                 =                            Θ                                       (                               (                               ln                               ⁡                               (                               T                               )                               )                                           λ                                  2                                          )                                      ,                                  \frac{E[\| W^{(P)}_T - W^* \|^2]}{E[\| W^{(P)}_T - W^* \|^2]} = \Theta \left( (\ln(T))\lambda_2 \right),                     E[∥WT(P)​−W∗∥2]E[∥WT(P)​−W∗∥2]​=Θ((ln(T))λ2​),
证明确在                                    t                         =                         1                         /                         t                              t = 1/t                  t=1/t 时,                                   P                         (                         W                         )                              P(W)                  P(W) 和                                    Q                         (                         W                         )                              Q(W)                  Q(W) 在最优解上共享相同的最优解                                              W                            ∗                                       W^*                  W∗。
证明 引理1展示了伴随目标                                    Q                              Q                  Q 与输出目标                                    P                              P                  P 的兼容性。第一个方程可以直接从引理2推导出来,第二个方程可以从引理3中看到。一般情况下,                                             λ                            2                                  ≫                                   λ                            1                                       \lambda_2 \gg \lambda_1                  λ2​≫λ1​,这将大大提高收敛速度,并且每个隐藏层中的束缚也有助于学习出直接具有区分性的滤波器。
3. 实行

我们在四个标准基准数据集上评估了提出的DSN方法:MNIST、CIFAR-10、CIFAR-100和SVHN。在全部实行中,我们依照Krizhevsky等人[15]使用的常见练习协议。我们使用SGD求解器,mini批次(这里其实就是咱们常用的batchsize,具体解释可以看这个链接https://blog.csdn.net/weixin_45698935/article/details/106477624)巨细为128,固定动量值为0.9。学习率和权重衰减因子的初始值是基于验证集确定的。为了公平比较并清楚地展示DSN的有效性,我们将我们的模型复杂度与[20]和[9]中使用的网络架构相匹配,以得到相当数目的参数。我们还引入了两个dropout层,dropout率为0.5。卷积层的伴随目标用于将分类误差引导反向传播到底层卷积层。在练习过程中,学习率按照基于验证集确定的周期安排,每练习一个周期衰减20倍。提出的DSN框架不难练习,并且没有接纳特殊的工程技巧。我们的系统创建在广泛使用的Caffe基础设施[14]之上。对于网络架构设置,我们接纳了[20]中介绍的mlpconv层和全局均匀池化方案。DSN可以配备不同类型的损失函数,如Softmax和SVM。我们展示了DSN-SVM和DSN-Softmax相对于CNN-SVM和CNN-Softmax的性能提拔(见图2.a)。在小练习数据的情况下,性能提拔更加显着(见图2.b);这可能部分缓解了深度学习需要大量练习数据的负担。总体而言,我们在全部四个数据集上观察到最先进的分类错误率(没有数据增强),MNIST为0.39%,CIFAR-10为9.78%,CIFAR-100为34.57%,SVHN为1.92%(CIFAR-10数据增强后的效果为8.22%)。全部效果均未使用均匀[24],该方法并非我们独有。图3展示了部分学习到的特征。

3.1 MNIST

我们起首验证了提出的DSN在MNIST手写数字分类任务[17]上的有效性,这是一个在机器学习中广泛接纳的基准数据集。MNIST数据集由10个不同种别(0到9)的28 × 28巨细的图像组成,包含60,000个练习样本和10,000个测试样本。图2(a)和(b)展示了四种方法的效果,分别是:(1)传统的CNN与softmax损失(CNN-Softmax),(2)提出的DSN与softmax损失(DSN-Softmax),(3)CNN与最大边际目标(CNN-SVM),以及(4)提出的DSN与最大边际目标(DSN-SVM)。DSN-Softmax和DSN-SVM优于它们的竞争CNN算法(在没有数据白化和增强的单个模型下,DSN-SVM的分类错误率为0.39%)。图2(b)展示了当练习样本巨细厘革时,竞争方法的分类错误率(在500个样本时,DSN-SVM比CNN-Softmax提高了26%的准确率)。图2( c )展示了CNN和DSN之间的泛化误差比较。
3.2CIFAR-10 和CIFAR-100

CIFAR-10数据集由32 × 32彩色图像组成,共有60,000张图像,分为50,000张练习图像和10,000张测试图像。数据集经过全局对比度归一化预处理。为了与之前的最先进效果举行比较,在此情况下,我们还通过在每一边零添补4个像素,然后在练习过程中举行角裁剪和随机翻转来增强数据。在测试阶段没有举行模型均匀,我们仅对测试样本的中心举行裁剪。表2展示了我们的效果。我们的DSN模型在没有数据增强的情况下达到了9.78%的错误率,在举行了数据增强后达到了8.22%(这是我们所知的最佳已知效果)。

DSN还提供了对超参数选择的额外鲁棒性,因为早期层通过直接分类损失举行引导,从而加速了收敛速度,减轻了对重度超参数调优的负担。我们还比较了DSN和CNN中的梯度,观察到在第一个卷积层中,DSN的梯度方差是CNN的4.55倍。这与[9]中的观察同等,也与我们在本工作中做出的假设和动机相符。为了检察DSN与CNN学到的特征,我们从CIFAR-10数据集的每个十个种别中选择一张示例图像,举行一次前向传播,并展示从第一层(底部)卷积层学习到的特征图,见图3。每个特征图中只表现了前30%的激活值。DSN学习到的特征图比CNN学习到的特征图更直观。
CIFAR-100数据集与CIFAR-10数据集雷同,不同之处在于它有100个种别。每个种别的图像数目是500张,而不是CIFAR-10中的5,000张,这使得分类任务更加具有寻衅性。我们使用与CIFAR-10相同的网络设置。表2展示了之前的最佳效果,DSN陈诉的效果为34.57%。在CIFAR-10和CIFAR-100上连续表现的性能提拔再次证明确DSN方法的优势。
3.3 街景门牌号

Street View House Numbers (SVHN) 数据集包含73,257个用于练习的数字,26,032个用于测试的数字,以及53,113个额外的练习样本,图像尺寸为32 × 32的彩色图像。我们按照之前的工作举行数据准备,即:从练习集中选择每个种别400个样本,从额外集选择每个种别200个样本。其余的598,388张图像用于练习。我们按照[9]的处理方法,通过局部对比度归一化(LCN)对数据集举行了预处理。在练习中我们没有举行数据增强,并且在测试中只使用单个模型。表3展示了近来的可比效果。请注意,Dropconnect[19]使用了数据增强和多模型投票。

4. 结论

在本文中,我们提出了一个新的公式,深度监督网络(DSN),试图为深度学习创造一个更透明的学习过程。与现有方法相比,得到了显着的性能增强。随机梯度的观点也有助于明确我们的公式。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

十念

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表