下图展示了应用上一个时刻的输出 h t − 1 h_{t-1} ht−1和当前的数据输入 x t x_t xt,通过遗忘门得到 f t f_t ft的过程。
下图展示了应用上一个时刻的输出 h t − 1 h_{t-1} ht−1和当前的数据输入 x t x_t xt,通过输入门得到 i t i_t it,以及通过单元状态得到当前时刻暂时状态 C ~ t \tilde{C}_t C~t的过程。
下图展示了应用上一个细胞结构的单元状态 C t − 1 C_{t-1} Ct−1、遗忘门输出 f t f_t ft、输入门输出 i t i_t it以及单元状态的输出 C ~ t \tilde{C}_t C~t,得到当前细胞的状态 C t C_t Ct的过程。
下图展示了应用上一个时刻的输出 h t − 1 h_{t-1} ht−1和当前的数据输入 x t x_t xt,通过输出门得到 o t o_t ot的过程,以及结合当前细胞的单元状态 C t C_t Ct和 o t o_t ot得到最终的输出 h t h_t ht的过程。
看看里面的步骤
解释
三个 σ \sigma σ代表三个门,其输入均有上一层的隐藏状态 h t h_t ht以及输入数据 x t x_t xt
g t g_t gt = C ~ t \tilde{C}_t C~t
其他参数: W W W初始化权重, b b b偏置向
c t − 1 c_{t-1} ct−1在经历过一次乘法和一次加法后的流动方向有两个:一个是直接输出,另一个是经过 t a n h tanh tanh后和 o t o_t ot汇合输出 h t h_t ht
h t h_t ht也有两个流向:一个是流到下一个时刻,另一个是输出 y t = W y h h t + b y y_t = W_{yh}h_t + b_y yt=Wyhht+by
4.LSTM和RNN的差异
RNN:把所有信息都记住,不管有用的没用的。 LSTM:设计一个记忆细胞,具备选择性记忆的功能,可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担,解决了RNN上的问题:梯度爆炸和梯度消失 普通讲差异:在期末复习周的时间,比如要考高数,老师已经给划定了重点,RNN还是会把整本书复习一遍,这会导致记忆负担重,会遗忘掉一些重要的信息,导致记忆效果差;而LSTM过滤掉了不考的信息,只记重点 名词解释:
梯度消失:
现象:在训练过程中,反向传播时梯度渐渐变小,导致网络的早期层权重更新很少甚至停滞,使模型无法捕获恒久 依赖的信息。
原因:在时间序列长度较长的环境下,RNN 的反向传播会涉及到多次链式求导(如 ∂ L ∂ W \frac{\partial L}{\partial W} ∂W∂L中的链式规则)。如果激活 函数的导数值小于 1(如 sigmoid),会使得梯度逐步衰减,最终趋近于 0。
梯度爆炸:
现象:在训练过程中,反向传播时梯度渐渐变大,导致权重更新幅度过大,模型失控。
原因:与梯度消失类似,但激活函数导数值较大(或权重初始化不当)会导致梯度不断放大。
参考文献
[1] S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural Comput, vol. 9, no. 8, pp. 1735–1780, Nov. 1997.
[2] F. A. Gers, J. Schmidhuber, and F. A. Cummins, “Learning to Forget: Continual Prediction with LSTM,” Neural Comput., vol. 12, pp. 2451–2471, 2000.
[3] F. A. Gers and J. Schmidhuber, “Recurrent nets that time and count,” Proc. IEEE-INNS-ENNS Int. Jt. Conf. Neural Netw. IJCNN 2000 Neural Comput. New Chall. Perspect. New Millenn., vol. 3, pp. 189–194 vol.3, 2000.
[4] A. Graves and J. Schmidhuber, “Framewise phoneme classification with bidirectional LSTM and other neural network architectures,” Neural Netw., vol. 18, no. 5, pp. 602–610, Jul. 2005.
[5] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, “LSTM: A Search Space Odyssey,” IEEE Trans. Neural Netw. Learn. Syst., vol. 28, no. 10, pp. 2222–2232, Oct. 2017.
[6] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling,” ArXiv14123555 Cs, Dec. 2014.