一文彻底搞懂RNN - 模子架构(Model Architecture)

打印 上一主题 下一主题

主题 1073|帖子 1073|积分 3219


Recurrent Neural Network
RNN是一种特殊的神经网络结构,它通过在时间上的睁开来处理序列数据中的依靠关系。在每个时间步(time step),RNN都会接收一个输入(比如句子中的一个单词),并输出一个结果(比如下一个单词的预测)。与传统的前馈神经网络(Feedforward Neural Network, FNN)不同,RNN在每个时间步都会保存一个隐藏状态(hidden state),这个隐藏状态包含了之前所有时间步的信息,并用于计算当前时间步的输出和下一个时间步的隐藏状态。

RNN vs FFNN
一、FFNN(前馈神经网络)的局限性
前馈神经网络(Feedforward Neural Network, FFNN):前馈神经网络(FFNN),也称为多层感知机(MLP),通过多个隐藏层将输入数据映射到输出数据。 它重要由输入层、一个或多个隐藏层以及输出层组成,数据在网络中只能单向运动,即从输入层颠末隐藏层最终到达输出层,没有反馈环路。

FFNN
FFNN的局限性:FFNN这种结构在处理序列数据时存在显着的局限性,因为每个输入都是独立处理的,并且没有考虑它们之间的次序或上下文关系。这意味着无法有效处理次序数据并捕获输入之间的依靠关系。比方语言建模、机器翻译、语音识别、时间序列分析以及许多其他必要次序处理的应用程序。

Sequence Data
二、RNN(循环神经网络)
RNN的核心思想:为了解决FFNN在处理序列数据时的局限性,循环神经网络(RNN)被引入。RNN的核心思想是在隐藏层之间引入循环连接,使得每个时间步的隐藏状态不但取决于当前时间步的输入,还取决于前一个时间步的隐藏状态。

RNN 最重要也是最告急的特性是它的隐藏状态,它可以记取有关序列的一些信息。该状态也称为影象状态,因为它会记取网络的先前输入。


RNN的隐藏状态
RNN的模子架构 :RNN通过其隐藏层的隐藏状态捕捉输入序列的时序依靠性,并基于当前输入和前一隐藏状态来生成输出序列的预测结果。



  • 输入层:接收输入数据,并将其传递给隐藏层。输入不但仅是静态的,还包含着序列中的历史信息
  • 隐藏层:隐藏状态是核心部门,捕捉时序依靠性。隐藏层的输出不但取决于当前的输入,还取决于前一时刻的隐藏状态
  • 输出层:根据隐藏层的输出生成最终的预测结果。

输入层- 隐藏层 - 输出层
RNN的工作原理**:**通过一个详细的案例来看看RNN的工作原理。比方,用户说了一句“what time is it?”,必要判断用户的语言意图,是问时间,还是问天气?



  • 输入层:先对句子“what time is it ?” 进行分词,然后按照次序输入。

对句子进行分词


  • 隐藏层:在此过程中,我们留意到前面的所有输入都对后续的输生产生了影响。圆形隐藏层不但考虑了当前的输入,还综合了隐藏状态存储的之前所有的输入信息,能够利用历史信息来影响未来的输出
****

Hidden State存储了之前所有的输入信息


  • 输出层:生成最终的预测结果:Asking for the time。

输出结果:Asking for the time
三、RNN(循环神经网络)的局限性
RNN的局限性在于梯度问题导致难以学习长期依靠,长期影象能力不足,且并行处理能力差。

1. 梯度消散和梯度爆炸问题



  • 梯度消散:在RNN中,由于参数共享和多次连乘的特性,在反向传播过程中,梯度值可能会随着时间步的增加而指数级衰减,最终趋近于0。这导致RNN难以学习到长期依靠关系,因为较早时间步的输入在反向传播时其梯度几乎为0,无法对这些输入进行有效的权重更新。
  • 梯度爆炸:与梯度消散相反,梯度爆炸是指在反向传播过程中,梯度值可能会随着时间步的增加而快速增长到非常大,导致模子训练不稳定甚至无法收敛。
2. 长期依靠捕捉能力有限



  • 由于梯度消散的问题,RNN在处理长序列时难以有效地捕捉到长期依靠关系。这意味着如果输入序列中的某个元素与输出之间存在长时间的间隔,RNN可能无法有效地学习到这两者之间的关系,从而限定了其在处理长序列数据时的性能。
3. 并行处理能力较差



  • RNN的计算是次序进行的,即每个时间步的输出都依靠于前一个时间步的计算结果。这种次序计算的方式限定了RNN的并行处理能力,使得在大规模数据集和复杂模子的情况下,RNN的训练和推理速率相对较慢。

梯度消散和梯度爆炸
最后的最后

感谢你们的阅读和喜欢,我收藏了很多技能干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系着实是过于巨大,知识更新也非常快。作为一个平凡人,无法全部学完,以是我们在提升技能的时候,首先必要明白一个目标,然后订定好完备的计划,同时找到好的学习方法,这样才能更快的提升本身。
这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
大模子知识脑图

为了成为更好的 AI大模子 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,包管本身学得较为全面。

经典书籍阅读

阅读AI大模子经典书籍可以资助读者提高技能水平,开拓视野,掌握核心技能,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模子开发的读者来说,阅读经典书籍是非常有必要的。

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将本身的所学运用到实际当中去,这时候可以搞点实战案例来学习。

面试资料

我们学习AI大模子必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

640套AI大模子报告合集

这套包含640份报告的合集,涵盖了AI大模子的理论研究、技能实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感兴趣的爱好者,这套报告合集都将为您提供名贵的信息和启示。

这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

勿忘初心做自己

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表