dl笔记:MOE
1 moe介绍混合专家模型主要由两个关键部分组成
[*]希罕MoE 层
[*]这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
[*]MoE 层包罗多少“专家”,每个专家自己是一个独立的神经网络。
[*]通常是参数更少的前馈网络 (FFN)
[*]乃至可以是 MoE 层自己,从而形成层级式的 MoE 布局
[*]门控网络(路由)
[*]用于决定哪些令牌 (token) 被发送到哪个专家
https://i-blog.csdnimg.cn/direct/bd3cfb4b1b7847ba9f3caa7ce51a3bda.png
特点
[*]与稠密模型相比, 预训练速度更快
[*]在相同的盘算预算条件下,可以显著扩大数据集的规模
[*]与具有相同参数数量的模型相比,具有更快的 推理速度
[*]推理阶段只使用moe的一部分,有些参数是用不上的
[*]在 微调方面存在诸多挑战
[*]在微调阶段每每面对泛化本领不足的问题,长期以来易于引发过拟合现象
[*]令牌存在负载均衡的挑战
[*]在训练过程中,门控网络每每倾向于主要激活相同的几个专家。
[*]这种情况可能会自我增强,因为受欢迎的专家训练得更快,因此它们更容易被选择。
[*]——>解决方法有:
[*]引入辅助丧失,旨在鼓励给予所有专家相同的重要性
[*]给每个专家处置惩罚令牌的阈值
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]