IT评测·应用市场-qidao123.com

标题: 深度学习知识点:LSTM [打印本页]

作者: 去皮卡多    时间: 2025-1-11 02:11
标题: 深度学习知识点:LSTM
1.应用现状

长短期记忆神经网络(LSTM)是一种特别的循环神经网络(RNN)。原始的RNN在训练中,随着训练时间的加长以及网络层数的增多,很容易出现梯度爆炸大概梯度消失的问题,导致无法处置惩罚较长序列数据,从而无法获取长间隔数据的信息。
LSTM应用的领域包括:文本生成、机器翻译、语音识别、生成图像形貌和视频标志等。

2.发展历史

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber[1]提出了长短期记忆神经网络(LSTM),有效解决了RNN难以解决的人为延伸时间使命的问题,并解决了RNN容易出现梯度消失的问题。

3.基本结构

本节起首回顾一下RNN的基本结构,然后说明LSTM的详细原理(下面要介绍的LSTM即为vanilla LSTM)。
原始的RNN基本结构图如下图所示。

由上图可知,RNN展开后由多个相同的单元连续连接。但是,RNN的实际结构确和上图左边的结构所示,是一个自我不断循环的结构。即随着输入数据的不断增长,上述自我循环的结构把上一次的状态传递给当前输入,一起作为新的输入数据进行当前轮次的训练和学习,一直到输入大概训练结束,最终得到的输出即为最终的预测效果。
LSTM是一种特别的RNN,两者的区别在于普通的RNN单个循环结构内部只有一个状态。而LSTM的单个循环结构(又称为细胞)内部有四个状态。相比于RNN,LSTM循环结构之间保持一个持久的单元状态不断传递下去,用于决定哪些信息要遗忘大概继承传递下去。
包含三个连续循环结构的RNN如下图,每个循环结构只有一个输出:

包含三个连续循环结构的LSTM如下图,每个循环结构有两个输出,此中一个即为单元状态:

一层LSTM是由单个循环结构结构构成,既由输入数据的维度和循环次数决定单个循环结构必要自我更新频频,而不是多个单个循环结构连接构成,即当前层LSTM的参数总个数只需计算一个循环单元就行,而不是计算多个连续单元的总个数。
下面将由一组图来详细解释LSTM细胞的基本构成和实现原理。LSTM细胞由遗忘门、输入门、输出门和单元状态构成。

更普通的解释:
下图展示了应用上一个时刻的输出                                             h                                       t                               −                               1                                                 h_{t-1}                  ht−1​和当前的数据输入                                             x                            t                                       x_t                  xt​,通过遗忘门得到                                             f                            t                                       f_t                  ft​的过程。

下图展示了应用上一个时刻的输出                                             h                                       t                               −                               1                                                 h_{t-1}                  ht−1​和当前的数据输入                                             x                            t                                       x_t                  xt​,通过输入门得到                                             i                            t                                       i_t                  it​,以及通过单元状态得到当前时刻暂时状态                                                        C                               ~                                      t                                       \tilde{C}_t                  C~t​的过程。

下图展示了应用上一个细胞结构的单元状态                                             C                                       t                               −                               1                                                 C_{t-1}                  Ct−1​、遗忘门输出                                             f                            t                                       f_t                  ft​、输入门输出                                             i                            t                                       i_t                  it​以及单元状态的输出                                                        C                               ~                                      t                                       \tilde{C}_t                  C~t​,得到当前细胞的状态                                             C                            t                                       C_t                  Ct​的过程。

下图展示了应用上一个时刻的输出                                             h                                       t                               −                               1                                                 h_{t-1}                  ht−1​和当前的数据输入                                             x                            t                                       x_t                  xt​,通过输出门得到                                             o                            t                                       o_t                  ot​的过程,以及结合当前细胞的单元状态                                             C                            t                                       C_t                  Ct​和                                             o                            t                                       o_t                  ot​得到最终的输出                                             h                            t                                       h_t                  ht​的过程。

看看里面的步骤
解释

4.LSTM和RNN的差异

RNN:把所有信息都记住,不管有用的没用的。
LSTM:设计一个记忆细胞,具备选择性记忆的功能,可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担,解决了RNN上的问题:梯度爆炸和梯度消失
普通讲差异:在期末复习周的时间,比如要考高数,老师已经给划定了重点,RNN还是会把整本书复习一遍,这会导致记忆负担重,会遗忘掉一些重要的信息,导致记忆效果差;而LSTM过滤掉了不考的信息,只记重点
名词解释
       梯度消失:
              现象:在训练过程中,反向传播时梯度渐渐变小,导致网络的早期层权重更新很少甚至停滞,使模型无法捕获恒久                      依赖的信息。
              原因:在时间序列长度较长的环境下,RNN 的反向传播会涉及到多次链式求导(如                                                        ∂                               L                                                 ∂                               W                                                 \frac{\partial L}{\partial W}                  ∂W∂L​中的链式规则)。如果激活                      函数的导数值小于 1(如 sigmoid),会使得梯度逐步衰减,最终趋近于 0。
       梯度爆炸:
              现象:在训练过程中,反向传播时梯度渐渐变大,导致权重更新幅度过大,模型失控。
              原因:与梯度消失类似,但激活函数导数值较大(或权重初始化不当)会导致梯度不断放大。
参考文献
[1] S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural Comput, vol. 9, no. 8, pp. 1735–1780, Nov. 1997.
[2] F. A. Gers, J. Schmidhuber, and F. A. Cummins, “Learning to Forget: Continual Prediction with LSTM,” Neural Comput., vol. 12, pp. 2451–2471, 2000.
[3] F. A. Gers and J. Schmidhuber, “Recurrent nets that time and count,” Proc. IEEE-INNS-ENNS Int. Jt. Conf. Neural Netw. IJCNN 2000 Neural Comput. New Chall. Perspect. New Millenn., vol. 3, pp. 189–194 vol.3, 2000.
[4] A. Graves and J. Schmidhuber, “Framewise phoneme classification with bidirectional LSTM and other neural network architectures,” Neural Netw., vol. 18, no. 5, pp. 602–610, Jul. 2005.
[5] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, “LSTM: A Search Space Odyssey,” IEEE Trans. Neural Netw. Learn. Syst., vol. 28, no. 10, pp. 2222–2232, Oct. 2017.
[6] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling,” ArXiv14123555 Cs, Dec. 2014.

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4