论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
物联网
›
物联网
›
深度学习100问33:如何避免梯度消散
深度学习100问33:如何避免梯度消散
耶耶耶耶耶
论坛元老
|
2024-9-1 09:53:49
|
显示全部楼层
|
阅读模式
楼主
主题
1649
|
帖子
1649
|
积分
4947
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
嘿,想避免梯度消散这个麻烦事儿,有几个妙招哦。
起首呢,选个好的“调味料”,也就是激活函数。不同的激活函数效果可不一样呢。像 ReLU 函数就很不错,它就像个锋利的小助手。当输入是正数的时候,它的梯度始终是 1,不会像有些传统激活函数那样,
在反向流传的时候梯度越来越小。
接着,得用符合的方法来“开场”,也就是初始化方法。就像玩游戏一开始要设置好状态一样。像 Xavier 初始化和 He 初始化这些方法,可以根据网络的结构自动调解权重的初始值,让信号在网络里能更好地流传,就像给信号铺了一条顺畅的路。
还有哦,可以在网络里修一些“捷径”,这就是残差连接。想象一下在一条长长的路上修一些小道,如许信号就可以直接从一层传到更深的层,不消经过很多多少层,就不会出现梯度慢慢消散的题目啦。
另外呢,用点“束缚邪术”,也就是正则化技能。这就像给神经网络加上一些规矩,防止它乱来。比如 L1 和 L2 正则化,可以限制权重的大小,不让权重变得太大导致梯度消散。而且正则化还能让模型更听话,不会乱猜,提高泛化能力。
最后,要调好“油门”,也就是学习率。学习率就像控制神经网络学习速率的开关。要是太大了,模型可能一下子就跑过头,错过最优解;要是太小了,模型就像蜗牛爬,慢得让人着急。合理设置学习率可以让模型练习得更稳定,淘汰梯度消散的风险。可以用一些聪明的自适应学习率优化算法,像 Adam、Adagrad 等,它们能根据模型的练习情况自动调解学习率,可知心啦。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
耶耶耶耶耶
论坛元老
这个人很懒什么都没写!
楼主热帖
为什么你应该停止依赖Jenkins的插件? ...
蜻蜓优化算法(Matlab完整代码实现) ...
集合论第6-8章
axios&spring前后端分离传参规范总结 ...
SQL 教程之 10 个 SQL 操作用于 80% 的 ...
关于Maven的使用
Python知识点(史上最全)
腾讯云多媒体文件处理总结
JVM常用调优配置参数
20220319编译OpenHarmony-v3.1-beta出 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
网络安全
人工智能
云原生
IOS
移动端开发
运维.售后
DevOps与敏捷开发
IT职场那些事
Oracle
快速回复
返回顶部
返回列表