虚拟化与私有云基于单机最高能效270亿参数GPT模型的文本生成与明确

雁过留声 发表于 2024-8-3 22:48:23

基于单机最高能效270亿参数GPT模型的文本生成与明确

概述

GPT模型能较好的处理文本生成范畴的各种任务，好比文本补全，自由问答，完形填空，写作文，写摘要，写小说，写诗歌等等。近来火爆全网的人工智能产物ChatGPT也是以GPT文本生成模型为底座。虽然GPT大模型作用在这些应用范畴的效果很好，但是练习成本非常高。以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估必要34天，一万亿参数的GPT-3在3072张A100显卡上也至少必要84天；微软/英伟达连合推出的5300亿的NLG模型，在2048张A100显卡上耗时了3个月的练习时间才能达到比较好的收敛效果。
https://i-blog.csdnimg.cn/blog_migrate/3123f3065636c029f2d85b51e4cf04fe.png
针对GPT基础模型参数目大，练习&推理硬件资源斲丧过高等问题，基于MoE的希罕化练习是现在最具竞争力的降本增效途径。MoE的全称是Mixture of Experts，其中的Expert对应的是Transfomrer模型的MLP层，在练习的时间从多个MLP中选取一个MLP进行激活（如下图所示）。这意味着模型可以在不增加计算强度（FLOPS/Bytes）的情况下，通过增加MLP模块的数目来增加模型参数目级，进而提拔模型在下游任务上的泛化性能。采用MoE后的希罕Transformer模型和同等质量（验证集loss以及zeroshot nlu下游任务性能）的稠密模型相比有将近1.2倍的练习吞吐性能提拔，1.3倍的推理吞吐性能提拔。我们在希罕架构总体设计的时间，选择让MoE跟纯Transformer Decoder架构的GPT进行有机连合。缘故原由是MoE跟Decoder连合效果通常会好于跟Encoder的连合效果。具体来讲，Encoder是通过随机masking的方式学习语言模型，而这种被随机masked的token会让expert的路由选择出现不平衡。另一方面，思量到Decoder类的GPT模型比Encoder类的Bert模型有更广泛利用场景，因此我们采用GPT+MoE的技术架构门路，探索单机最高能效的绿色低碳GPT大模型练习&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于当前比较成熟的分布式MoE专家路由选择技术，采用Switch Transformer中的top-1路由机制。每个Expert根据如下的softmax函数被赋予一个概率值，取概率最高（top-1）的谁人Expert当作网络的FFN层。其中W_r是做路由选择时必要学习的参数。
https://i-blog.csdnimg.cn/blog_migrate/c9590e7b74d5ff47117075a95f9a2cfa.png
GPT-MoE练习&推理能效分析

基础预练习模型练习&推理性能分析

任何一种稠密（Dense）的GPT模型，都有一种效果与之对应的练习&推理速度更快的希罕（MoE）GPT模型。我们的目的是在受限硬件好比单机条件下找到这种GPT-MoE模型设置，然后通过对MoE算法进行改进来进一步提拔它的练习能效。我们通过对比稠密&希罕模型的练习&推理性能，来发现与稠密模型等价的高能效希罕模型。
8种GPT模型的参数目，模型布局，练习超参数如下表所示：
GPT模型参数目 Layers Heads hidden size LR Batch of Tokens 1.3B Dense 1.3B 24 32 2048 2e-4 1M 2.7B Dense 2.7B 32 32 2560 1.6e-4 1M 3.6B Dense 3.6B 30 32 3072 1.6e-4 1M 0.35B+MoE-64 6.7B 24 16 1024 3e-4 0.5M 1.3B+MoE-32 13B 24 32 2048 2e-4 1M 1.3B+MoE-64 27B 24 32 2048 1.6e-4 1M 2.7B+MoE-64 56B 32 32 2560 1.6e-4 1M 3.6B+MoE-64 75B 30 32 3072 1.6e-4 1M 如下图所示，1.3B+MoE32/64模型在雷同的step下对比1.3B dense体现出更低的验证集loss，其中1.3B+MoE-64模型的loss甚至低于2.7B dense模型
https://i-blog.csdnimg.cn/blog_migrate/d75dd32487ec23e2511784db01f2c791.png
5个模型中，0.35B+MoE-64的练习吞吐速度最快，是其他模型的2倍左右。其余四个模型中，吞吐速度较高的是1.3B dense和1.3B+MoE-32，1.3B+MoE-64和2.7B dense的速度相近。如下图所示：
https://i-blog.csdnimg.cn/blog_migrate/bbb928d066a8e0a8f24be20a4b66d869.png
推理吞吐速度方面，1.3B Dense的显存斲丧最少，0.35B+MoE64的耽误最低。
input_len = 20
output_len = 128
batch_size = 1
模型 latency （ms） memory （MB） num of gpus 1.3B Dense 399.66 9476 1 2.7B Dense 753.37 17340 1 3.6B Dense 777.54 22558 1 0.35B+MoE64 356.22 15772 1 1.3B+MoE32 581.34 33294 1 1.3B+MoE64 586.18 57880
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

基于单机最高能效270亿参数GPT模型的文本生成与明确