论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
《大语言模子》学习笔记(三)
《大语言模子》学习笔记(三)
八卦阵
金牌会员
|
2025-3-18 23:17:51
|
显示全部楼层
|
阅读模式
楼主
主题
927
|
帖子
927
|
积分
2781
GPT系列模子的技术演变
2022 年11月底,OpenAI推出了基于大语言模子的在线对话应用—ChatGPT。由于具备出色的人机对话能力和任务办理能力,ChatGPT一经发布就引发了全社会对于大语言模子的广泛关注,浩繁的大语言模子应运而生,并且数量还在不断增加。
GPT 系列模子的基本原理是练习模子学习恢复预练习文本数据,将广泛的天下知识压缩到仅包含解码器(Decoder-Only)的Transformer 模子中,从而使模子能够学习获得较为全面的能力。其中,两个关键要素是:
(1)练习能够准确预测下一个词的Transformer(只包含解码器)语言模子;
(2)扩展语言模子的规模以及扩展预练习数据的规模。
图2.2展示了GPT系列模子的技术演进示意图,这里主要根据OpenAI的论文、博客文章和官方API说明的信息进行绘制。该图中实线表示在两个模子之间的进化路径上存在明确的证据(比方,官方声明新模子是基于基础模子开发的),而虚线表示相对较弱的进化关系。停止到目前,OpenAI对大语言模子的研发进程大抵可分为四个阶段:早期探索阶段、路线确立阶段、能力加强阶段以及能力跃升阶段。
早期探索
(1) GPT-1
2017 年,Google 推出 Transformer 模子后,OpenAI 团队马上意识
到这种神经网络架构将明显优于传统序列神经网络的性能,有可能对于研发大型神经网络产生紧张的影响。他们很快着手使用Transformer架构研发语言模子,并于2018 年发布了第一个GPT模子,即GPT-1,模子名称GPT是生成式预练习(Generative Pre-Training)的缩写。GPT-1 基于生成式、仅有解码器的 Transformer
架构开发,奠定了GPT系列模子的核心架构与基于自然语言文本的预练习方式,即预测下一个词元。由于当时模子的参数规模还相对较小,模子仍旧缺乏通用的任务求解能力,因而接纳了无监视预练习和有监视微调相结合的范式。
与GPT-1同期发布的预练习语言模子是台甫鼎鼎的BERT模子。BERT与GPT-1虽然都接纳了基于Transformer架构的预练习学习方式,但是它主要面向自然语言理解任务(Natural Language Understanding, NLU),为此只保留了Transformer中的编码器,其中BERT-Large模子在浩繁的自然语言理解任务上取得了非常紧张的提升,成为当时备受瞩目的“明星模子”。可以说,BERT当时引领了自然语言处理社区的研究
浪潮,涌现了大量针对它改进与探索的工作。由于GPT-1模子规模现实上与小规模的BERT-Base模子相当(100M左右参数),在公开评测数据聚集上的性能尚不能到达当时浩繁竞争模子中的最优结果,没有引起学术界的充足关注。
(2)GPT-2
GPT-2 沿用了GPT-1 的类似架构,将参数规模扩大到1.5B,并使用大规模网页数据集WebText进行预练习。与GPT-1不同,GPT-2旨在探索通过扩大模子参数规模来提升模子性能,并且实验去除针对特定任务所需要的微调环节。GPT-2的论文中得到了着重叙述,它试图使用无监视预练习的语言模子来办理各种卑鄙任务,进而不需要使用标注数据进行显式的模子微调。情势化来说,多任务学习(Multi-taskLearning)可以通过一种较为通用的概率情势刻画,即
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
八卦阵
金牌会员
这个人很懒什么都没写!
楼主热帖
不可思议但又无处不在的漏洞,WEB安全 ...
【历史上的今天】6 月 2 日:苹果推出 ...
C#实现HTTP访问类HttpHelper
开源共建 | Dinky 扩展批流统一数据集 ...
企业应用超融合架构的设计实例及超融合 ...
袋鼠云春季生长大会圆满落幕,带来数实 ...
大规模 IoT 边缘容器集群管理的几种架 ...
【软考】系统集成项目管理工程师(二) ...
ClickHouse 查询优化详细介绍
Python字符串替换的3种方法
标签云
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表