每日AIGC最新希望(51):昆仑万维震撼发布16B DiT-MoE图像生成模子、东北大 ...

打印 上一主题 下一主题

主题 504|帖子 504|积分 1512

Diffusion Models专栏文章汇总:入门与实战
  Scaling Diffusion Transformers to 16 Billion Parameters

本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模子,它在保持与密集网络竞争力的同时,实现了高度优化的推理。通过共享专家路由和专家级均衡损失筹划,DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。


DiT-MoE通过将DiT中的部分密集前馈层更换为稀疏MoE层,实现了条件计算。每个图像块的标志被路由到一组专家(即MLP层)。此外,引入了共享专家路由和专家负载均衡损失,以优化专家专业化并减少不同路由专家之间的冗余。
实验效果表明,DiT-MoE在条件图像生成使命中的表现与密集网络相当,但推理时的计算负载更小。通过合成图像数据进一步扩展模子参数至16.5B,DiT-MoE在512×512分辨率下达到了

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

写过一篇

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表