ToB企服应用市场:ToB评测及商务社交产业平台

标题: Transformer 架构对比:Dense、MoE 与 Hybrid-MoE 的优劣分析 [打印本页]

作者: 我爱普洱茶    时间: 6 天前
标题: Transformer 架构对比:Dense、MoE 与 Hybrid-MoE 的优劣分析
1.LLM基础架构范例

Dense Transformer

Dense Transformer的优势是什么

Dense Transformer的主要优势:
不过文章也指出了Dense Transformer的一个主要限制:由于多头注意力机制的二次方复杂度,在相同参数量下扩展Dense Transformer架构的计算本钱会比力高。这也是为什么后来发展出了MoE和Hybrid-MoE这样的改进架构。
从文章末了的实验对比来看,在600M参数规模下,Dense模子的吞吐量(18k tps)确实低于MoE(34k tps)和Hybrid-MoE(27k tps)架构。不过在交织熵损失和困惑度等指标上,三种架构的体现相差不大。
这阐明Dense Transformer固然计算效率不如新型架构,但其性能体现依然可靠,仍然是一个值得考虑的基础架构选择。
MoE和Hybrid-MoE的改进

MoE和Hybrid-MoE的改进主要围绕两个核心方向:提拔计算效率和优化规模扩展能力。让我具体分析一下:
MoE (Mixture of Experts) 的改进方向:


Hybrid-MoE 的改进方向:


从文章的实验数据也能看出这些改进的效果:在600M参数规模下,MoE的吞吐量达到34k tps,Hybrid-MoE达到27k tps,而Dense transformer只有18k tps,证明白这些改进在计算效率上的优势。
特别值得注意的是文章提到的Snowflake Arctic案例,它作为一个Hybrid-MoE模子,通过结合10B Dense transformer和残差128x3.36B MoE transformer,在保持高性能的同时实现了17倍的计算节流,这很好地展示了这些改进架构的潜力。
MoE (Mixture of Experts) Transformer

MoE的优势是什么

MoE (Mixture of Experts)模子有以下主要优势:





不过 MoE 也存在一些挑战,比如:

MoE的缺点是什么

MoE (Mixture of Experts)模子的主要缺点包括:







这些缺点使得 MoE 模子更适合大规模、高吞吐量的场景,而在资源受限或小规模应用场景中,麋集模子大概是更好的选择。
#Transformer/思考
我的理解:
姜照旧老的辣,Dense Transformer对于个人大概小企业照旧友好的,上手难度会更低
但是如果你对吞吐量、练习效率有更高的要求,就可以考虑MoE大概Hybrid-MoE,但是上手难度会更高,比如练习轻易过拟合,小数据集体现会欠好,过度使用一些专家等挑战是存在的


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4