GPT系列模型扼要概述

打印 上一主题 下一主题

主题 829|帖子 829|积分 2487

GPT-1:(0.117B参数量,0.8B words预训练数据)
  

  动机:
  

  在RNN和Transformer之间,选择了后者。
  

  和《All your need is Attention》翻译模型的Encoder-Decoder架构相比,只生存Decoder,因此去掉了Cross-Attention层。没有利用sin、cos做位置编码,用的是可训练的位置编码。0.117B参数量。
  预训练:
  

  注意:
是Embedding和末了一层分类层,参数共享的。原因:这个时期的模型参数小,Embedding参数量占的比重高,共享可以降低参数量。现在的模型参数大,Embedding占的比重小,都不再共享了。
  微调(Fine Tune):
  

  将上了特殊Token(Start、Extract、Delim),让模型感知到在做NLP任务,而不是在做句子天生。
  Similarity任务,将句子1和句子2,用不同的序次,做成2个样本,激活值相加,末了进Linear层去分类。
  多选题任务,标题+选项,得到1个数值;每个选项都得到1个数值,这些数值做softmax;
  Trick: 微调任务和预训练任务,同时进行训练。
  训练数据:
  

  
   Bert:
  

  双向Encoder预训练;末了加1层线形层做下游任务微调。
  

  效果碾压GPT-1:
  

  
   GPT-2(1.542B参数量,40GB文字训练数据量)
  

  动机:
  

  下游任务,放弃特殊token,改用prompt:
  

  

  模型变革:
  

  训练变革:
  

  效果:比不过FineTune模型。但发现了规律:随着参数量增大,效果仍可继承上升。
  
   GPT-3: (175B参数量,300B token预训练数据量)
  

  动机:
  

  

  模型修改:
  引入稀疏注意力机制(每个token只和前面的部分token进行attention计算,而不是前面全部token)
  

  训练数据:
  

  不同来源的数据,采样比例不一样。(质量差的数据,就少采样一些)
  效果:高出了最好的Fine tune模型。
  
   GPT-4:
  

  

  效果:霸榜Top-1
  Insight: 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王海鱼

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表