dl笔记:MOE

打印 上一主题 下一主题

主题 1764|帖子 1764|积分 5292

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
1 moe介绍

混合专家模型主要由两个关键部分组成


  • 希罕MoE 层

    • 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
    • MoE 层包罗多少“专家”,每个专家自己是一个独立的神经网络。

      • 通常是参数更少的前馈网络 (FFN)
      • 乃至可以是 MoE 层自己,从而形成层级式的 MoE 布局


  • 门控网络(路由)

    • ​​​​​​​用于决定哪些令牌 (token) 被发送到哪个专家


 特点 



  • 与稠密模型相比, 预训练速度更快

    • 在相同的盘算预算条件下,可以显著扩大数据集的规模

  • 与具有相同参数数量的模型相比,具有更快的 推理速度

    • ​​​​​​​推理阶段只使用moe的一部分,有些参数是用不上的

  • 在 微调方面存在诸多挑战

    • ​​​​​​​​​​​​​​在微调阶段每每面对泛化本领不足的问题,长期以来易于引发过拟合现象

  • 令牌存在负载均衡的挑战

    • 在训练过程中,门控网络每每倾向于主要激活相同的几个专家。

      • 这种情况可能会自我增强,因为受欢迎的专家训练得更快,因此它们更容易被选择。

    • ——>解决方法有:

      • 引入辅助丧失,旨在鼓励给予所有专家相同的重要性
      • 给每个专家处置惩罚令牌的阈值



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

魏晓东

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表