魏晓东 发表于 2024-12-30 23:40:30

dl笔记:MOE

1 moe介绍

混合专家模型主要由两个关键部分组成


[*]希罕MoE 层

[*]这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
[*]MoE 层包罗多少“专家”,每个专家自己是一个独立的神经网络。

[*]通常是参数更少的前馈网络 (FFN)
[*]乃至可以是 MoE 层自己,从而形成层级式的 MoE 布局


[*]门控网络(路由)

[*]​​​​​​​用于决定哪些令牌 (token) 被发送到哪个专家

https://i-blog.csdnimg.cn/direct/bd3cfb4b1b7847ba9f3caa7ce51a3bda.png
 特点 



[*]与稠密模型相比, 预训练速度更快

[*]在相同的盘算预算条件下,可以显著扩大数据集的规模

[*]与具有相同参数数量的模型相比,具有更快的 推理速度

[*]​​​​​​​推理阶段只使用moe的一部分,有些参数是用不上的

[*]在 微调方面存在诸多挑战

[*]​​​​​​​​​​​​​​在微调阶段每每面对泛化本领不足的问题,长期以来易于引发过拟合现象

[*]令牌存在负载均衡的挑战

[*]在训练过程中,门控网络每每倾向于主要激活相同的几个专家。

[*]这种情况可能会自我增强,因为受欢迎的专家训练得更快,因此它们更容易被选择。

[*]——>解决方法有:

[*]引入辅助丧失,旨在鼓励给予所有专家相同的重要性
[*]给每个专家处置惩罚令牌的阈值



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: dl笔记:MOE