卷积神经网络基础(十)

打印 上一主题 下一主题

主题 1869|帖子 1869|积分 5607

之前我们学习了SGD、Momentum和AdaGrad三种优化方法,本日我们将继续学习Adam方法。
6.1.6 Adam

我们知道Momentum参照的是小球在碗中滚动的物理规则举行移动而实现的,AdaGrad为参数的每个元素适本地调整更新步伐。那如果我们将这两种方法融合在一起会不会得到一个更加有用的方法呢?这就是Adam方法的基本思路。
Adam于2015年提出,固然理论较为复杂,但直观来讲,就是融合了Momentum和AdaGrad方法。组合二者之间的长处,实现参数空间的高效搜索。别的,对超参数举行“偏置矫正”也是其特征。
Adam解决最优化题目的结果如下所示:

Adam的更新过程就像小球在碗中滚动一样,固然也有类似Momentum的移动,但是相比之下Adam的左右摇晃程度减轻,得益于学习的更新程度被得当的调整了。
Adam会设置三个超参数,一个是学习率α,另外两个是momentum系数β1和二次momentumβ2.论文中这两个momentum系数分别设置为0.9和0.999.设置了这些值后,大多数环境下都能顺遂运行。
6.1.7 如何选择更新方法

现在为止,我们学习了四种更新方法:SGD、Momentum、AdaGrad和Adam。四种方法的参数更新路径不同,超参数设置不同结果也会发生厘革。更新路径如下所示:

很遗憾的是,没有一种方法在全部环境下都能表现良好,各有各的特点,要根据详细的题目选择符合的方法。很多研究中至今仍在利用SGD,Momentum和AdaGrad也值得一试。另外近来很多研究职员和技术职员喜好利用Adam。本书中主要利用的是SGD和Adam。
6.1.8 基于MNIST数据集的更新方法比较

首先我们以手写数字识别为例子来比较这四种方法,并确认不同方法在学习进展上有多大程度的差别。先来看结果:

其中横轴为迭代次数,纵轴为丧失函数的值(loss)。
这个实验以一个五层神经网络为对象,其中每层100个神经元,激活函数为ReLU。
从结果来看,相比于SGD,另外三种方法收敛的更快,而且速度基本类似。过细来看的花AdaGrad学习稍微快一点。需要注意的是:实验结果会随学习率等超参数、神经网络结构的不同而发生厘革。一样平常而言,与SGD相比,其他三种方法学习更快。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大连密封材料

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表