Oracledl笔记：MOE - Powered by Discuz! Archiver

魏晓东 发表于 2024-12-30 23:40:30

dl笔记：MOE

1 moe介绍

混合专家模型主要由两个关键部分组成

[*]希罕MoE 层

[*]这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
[*]MoE 层包罗多少“专家”，每个专家自己是一个独立的神经网络。

[*]通常是参数更少的前馈网络 (FFN)
[*]乃至可以是 MoE 层自己，从而形成层级式的 MoE 布局

[*]门控网络（路由）

[*]用于决定哪些令牌 (token) 被发送到哪个专家

https://i-blog.csdnimg.cn/direct/bd3cfb4b1b7847ba9f3caa7ce51a3bda.png
特点

[*]与稠密模型相比，预训练速度更快

[*]在相同的盘算预算条件下，可以显著扩大数据集的规模

[*]与具有相同参数数量的模型相比，具有更快的推理速度

[*]推理阶段只使用moe的一部分，有些参数是用不上的

[*]在微调方面存在诸多挑战

[*]在微调阶段每每面对泛化本领不足的问题，长期以来易于引发过拟合现象

[*]令牌存在负载均衡的挑战

[*]在训练过程中，门控网络每每倾向于主要激活相同的几个专家。

[*]这种情况可能会自我增强，因为受欢迎的专家训练得更快，因此它们更容易被选择。

[*]——>解决方法有：

[*]引入辅助丧失，旨在鼓励给予所有专家相同的重要性
[*]给每个专家处置惩罚令牌的阈值

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

dl笔记：MOE