论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
虚拟化.超融合.云计算
›
虚拟化与私有云
›
基于单机最高能效270亿参数GPT模型的文本生成与明确 ...
基于单机最高能效270亿参数GPT模型的文本生成与明确
雁过留声
金牌会员
|
2024-8-3 22:48:23
|
显示全部楼层
|
阅读模式
楼主
主题
831
|
帖子
831
|
积分
2493
概述
GPT模型能较好的处理文本生成范畴的各种任务,好比文本补全,自由问答,完形填空,写作文,写摘要,写小说,写诗歌等等。近来火爆全网的人工智能产物ChatGPT也是以GPT文本生成模型为底座。虽然GPT大模型作用在这些应用范畴的效果很好,但是练习成本非常高。以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估必要34天,一万亿参数的GPT-3在3072张A100显卡上也至少必要84天;微软/英伟达连合推出的5300亿的NLG模型,在2048张A100显卡上耗时了3个月的练习时间才能达到比较好的收敛效果。
针对GPT基础模型参数目大,练习&推理硬件资源斲丧过高等问题,基于MoE的希罕化练习是现在最具竞争力的降本增效途径。MoE的全称是Mixture of Experts,其中的Expert对应的是Transfomrer模型的MLP层,在练习的时间从多个MLP中选取一个MLP进行激活(如下图所示)。这意味着模型可以在不增加计算强度(FLOPS/Bytes)的情况下,通过增加MLP模块的数目来增加模型参数目级,进而提拔模型在下游任务上的泛化性能。采用MoE后的希罕Transformer模型和同等质量(验证集loss以及zeroshot nlu下游任务性能)的稠密模型相比有将近1.2倍的练习吞吐性能提拔,1.3倍的推理吞吐性能提拔。我们在希罕架构总体设计的时间,选择让MoE跟纯Transformer Decoder架构的GPT进行有机连合。缘故原由是MoE跟Decoder连合效果通常会好于跟Encoder的连合效果。具体来讲,Encoder是通过随机masking的方式学习语言模型,而这种被随机masked的token会让expert的路由选择出现不平衡。另一方面,思量到Decoder类的GPT模型比Encoder类的Bert模型有更广泛利用场景,因此我们采用GPT+MoE的技术架构门路,探索单机最高能效的绿色低碳GPT大模型练习&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于当前比较成熟的分布式MoE专家路由选择技术,采用Switch Transformer[2]中的top-1路由机制。每个Expert根据如下的softmax函数被赋予一个概率值,取概率最高(top-1)的谁人Expert当作网络的FFN层。其中W_r是做路由选择时必要学习的参数。
GPT-MoE练习&推理能效分析
基础预练习模型练习&推理性能分析
任何一种稠密(Dense)的GPT模型,都有一种效果与之对应的练习&推理速度更快的希罕(MoE)GPT模型。我们的目的是在受限硬件好比单机条件下找到这种GPT-MoE模型设置,然后通过对MoE算法进行改进来进一步提拔它的练习能效。我们通过对比稠密&希罕模型的练习&推理性能,来发现与稠密模型等价的高能效希罕模型。
8种GPT模型的参数目,模型布局,练习超参数如下表所示:
GPT模型
参数目
Layers
Heads
hidden size
LR
Batch of Tokens
1.3B Dense
1.3B
24
32
2048
2e-4
1M
2.7B Dense
2.7B
32
32
2560
1.6e-4
1M
3.6B Dense
3.6B
30
32
3072
1.6e-4
1M
0.35B+MoE-64
6.7B
24
16
1024
3e-4
0.5M
1.3B+MoE-32
13B
24
32
2048
2e-4
1M
1.3B+MoE-64
27B
24
32
2048
1.6e-4
1M
2.7B+MoE-64
56B
32
32
2560
1.6e-4
1M
3.6B+MoE-64
75B
30
32
3072
1.6e-4
1M
如下图所示,1.3B+MoE32/64模型在雷同的step下对比1.3B dense体现出更低的验证集loss,其中1.3B+MoE-64模型的loss甚至低于2.7B dense模型
5个模型中,0.35B+MoE-64的练习吞吐速度最快,是其他模型的2倍左右。其余四个模型中,吞吐速度较高的是1.3B dense和1.3B+MoE-32,1.3B+MoE-64和2.7B dense的速度相近。如下图所示:
推理吞吐速度方面,1.3B Dense的显存斲丧最少,0.35B+MoE64的耽误最低。
input_len = 20
output_len = 128
batch_size = 1
模型
latency (ms)
memory (MB)
num of gpus
1.3B Dense
399.66
9476
1
2.7B Dense
753.37
17340
1
3.6B Dense
777.54
22558
1
0.35B+MoE64
356.22
15772
1
1.3B+MoE32
581.34
33294
1
1.3B+MoE64
586.18
57880
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
雁过留声
金牌会员
这个人很懒什么都没写!
楼主热帖
阿里云体验有奖:如何将 PolarDB-X 与 ...
XShell免费版的安装配置教程以及使用教 ...
【如何优化她】教你如何定位不合理的SQ ...
day02-代码实现01
微服务大行其道的今天,Service Mesh是 ...
嵌入式数据库简介
十年技术进阶路,让我明白了三件要事( ...
鸿蒙3.0来了,这次,我真的想批评鸿蒙 ...
Elasticsearch 入门实战(5)--Java API ...
无需支付688苹果开发者账号,xcode13打 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表