《大语言模子》学习笔记(三)

打印 上一主题 下一主题

主题 927|帖子 927|积分 2781

GPT系列模子的技术演变

2022 年11月底,OpenAI推出了基于大语言模子的在线对话应用—ChatGPT。由于具备出色的人机对话能力和任务办理能力,ChatGPT一经发布就引发了全社会对于大语言模子的广泛关注,浩繁的大语言模子应运而生,并且数量还在不断增加。
GPT 系列模子的基本原理是练习模子学习恢复预练习文本数据,将广泛的天下知识压缩到仅包含解码器(Decoder-Only)的Transformer 模子中,从而使模子能够学习获得较为全面的能力。其中,两个关键要素是:
(1)练习能够准确预测下一个词的Transformer(只包含解码器)语言模子;
(2)扩展语言模子的规模以及扩展预练习数据的规模。

图2.2展示了GPT系列模子的技术演进示意图,这里主要根据OpenAI的论文、博客文章和官方API说明的信息进行绘制。该图中实线表示在两个模子之间的进化路径上存在明确的证据(比方,官方声明新模子是基于基础模子开发的),而虚线表示相对较弱的进化关系。停止到目前,OpenAI对大语言模子的研发进程大抵可分为四个阶段:早期探索阶段、路线确立阶段、能力加强阶段以及能力跃升阶段。
早期探索

(1) GPT-1
2017 年,Google 推出 Transformer 模子后,OpenAI 团队马上意识
到这种神经网络架构将明显优于传统序列神经网络的性能,有可能对于研发大型神经网络产生紧张的影响。他们很快着手使用Transformer架构研发语言模子,并于2018 年发布了第一个GPT模子,即GPT-1,模子名称GPT是生成式预练习(Generative Pre-Training)的缩写。GPT-1 基于生成式、仅有解码器的 Transformer
架构开发,奠定了GPT系列模子的核心架构与基于自然语言文本的预练习方式,即预测下一个词元。由于当时模子的参数规模还相对较小,模子仍旧缺乏通用的任务求解能力,因而接纳了无监视预练习和有监视微调相结合的范式。
与GPT-1同期发布的预练习语言模子是台甫鼎鼎的BERT模子。BERT与GPT-1虽然都接纳了基于Transformer架构的预练习学习方式,但是它主要面向自然语言理解任务(Natural Language Understanding, NLU),为此只保留了Transformer中的编码器,其中BERT-Large模子在浩繁的自然语言理解任务上取得了非常紧张的提升,成为当时备受瞩目的“明星模子”。可以说,BERT当时引领了自然语言处理社区的研究
浪潮,涌现了大量针对它改进与探索的工作。由于GPT-1模子规模现实上与小规模的BERT-Base模子相当(100M左右参数),在公开评测数据聚集上的性能尚不能到达当时浩繁竞争模子中的最优结果,没有引起学术界的充足关注。
(2)GPT-2
GPT-2 沿用了GPT-1 的类似架构,将参数规模扩大到1.5B,并使用大规模网页数据集WebText进行预练习。与GPT-1不同,GPT-2旨在探索通过扩大模子参数规模来提升模子性能,并且实验去除针对特定任务所需要的微调环节。GPT-2的论文中得到了着重叙述,它试图使用无监视预练习的语言模子来办理各种卑鄙任务,进而不需要使用标注数据进行显式的模子微调。情势化来说,多任务学习(Multi-taskLearning)可以通过一种较为通用的概率情势刻画,即

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

八卦阵

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表