论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
软件与程序人生
›
云原生
›
大语言模型的三种重要架构 Decoder-Only、Encoder-Only ...
大语言模型的三种重要架构 Decoder-Only、Encoder-Only、Encoder-Decoder ...
勿忘初心做自己
论坛元老
|
2024-6-14 21:19:54
|
显示全部楼层
|
阅读模式
楼主
主题
1865
|
帖子
1865
|
积分
5595
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
当代大型语言模型(LLM)的演变进化树,如下图:
https://arxiv.org/pdf/2304.13712.pdf
基于 Transformer 模型以非灰色显示:
decoder-only 模型在蓝色分支,
encoder-only 模型在粉色分支,
encoder-decoder 模型在绿色分支。
模型在时间线上的垂直位置表示它们的发布日期。
开源模型由实心方块表示,而闭源模型由空心方块表示。
右下角的堆积条形图显示了各公司和机构的模型数量。
从时间轴上,我们可以看到:
2021年前,当 OpenAI 决定在
GPT 系列中采用 Decoder-Only 架构时
,他们实际上是在逆流而上。在那个时代,Encoder-Decoder 架构,如在 BART 和 Transformer 模型中见到的,是技术巨头和学术界的宠儿,而 Decoder-Only 架构其时被视为一条不被主流认可的小径。
然而,正是这种冒险的选择催生了一个突破性的产品——ChatGPT。它不但挑战了其时的技术共识,还引领了一个全新的对话生成和文本续写的潮流。ChatGPT 显现的生成连贯、流畅和相关文本的能力,彻底颠覆了业界对 Decoder-Only 架构的看法,将其从一个被边缘化的选择转变为人工智能研究的前沿。
大语言模型常见架构
大语言模型如GPT系列(包括GPT-4)通常采用差别的架构,重要有三种:Decoder-Only、Encoder-Only、以及Encoder-Decoder。每种架构都有其独特的特点和实用场景:
1. Decoder-Only 架构(GPT)
这就像一个讲故事的人。你给他一个开头,好比“有一次,一只小猫走失了”,然后他会继承这个故事,陈诉下去,一直到故事结束。
Decoder-Only模型就是这样,它接收一些信息(开头),然后生成接下来的内容(故事)。
特点:擅长创造性的写作,好比写小说或自动生成文章。
它更多关注于从已有的信息(开头)扩展出新的内容。
OpenAI 选择了Decder-Only方案(如GPT系列),因为它对于自然语言生成特殊有效。这种架构能够更好地理解和预测语言模式,尤其得当处理开放式的、生成性的任务
。
2. Encoder-Only 架构(BERT)
这就像是一个专业的书评家。他阅读和理解一本书(输入的信息),然后告诉你这本书是关于什么的,好比它的主题是爱情、冒险还是悬疑。
Encoder-Only模型就是专注于理解和分析输入的信息,而不是创造新的内容。
特点:擅长理解和分类信息,好比判断一段文本的情绪倾向(积极还是悲观)或者主题分类。
这种架构重要用于处理输入数据,专注于理解和编码信息,而不是生成新的文本
。
Encoder-Only模型在理解和分类任务中更为有效,例如文本分类、情绪分析等。
3. Encoder-Decoder 架构(如BART、T5)
这就像是翻译家。他先听你说一段话(好比英文),理解它,然后把它翻译成另一种语言(好比中文)。
Encoder-Decoder模型就是这样,先理解输入的信息(Encoder部门),然后基于这个理解生成新的、相关的内容(Decoder部门)。
特点:擅优点理需要理解输入然后生成相关输出的任务,好比翻译或问答体系
。
这种模型在需要深入理解输入内容并生成相关响应的任务中体现良好,例如机器翻译、问答体系等。
从上面的先容,我们可以看到,三种架构都有实在用场景,那为啥OpenAI选择的Decoder-Only大获成功呢?因为:
理解自然语言是通往通用人工智能(AGI)的关键路径
语言是人类智能的一个焦点体现。通过有效地处理和生成自然语言,人工智能体系可以更好地理解
人类的意图、情绪和知识,
这是通向AGI的重要一步。
想象一下,语言就像是一座桥。这座桥连接着人类的头脑世界与外部世界。当人们交换时,他们实际上是在这座桥上相遇,通过语言的桥梁来分享思想、情绪和知识。
如今,设想人工智能(AI)像是一位初到陌生都会的旅者。最开始,这位旅者可能只懂得一些基本的词汇和短语,类似于旅游手册里的内容。随着时间的推移,如果他开始学习当地的语言,相识当地的文化和习俗,他就能更深入地理解这座都会,甚至能够与当地人进行深层次的交换。在这个过程中,这位旅者不但学会了如何使用语言,还学会了理解当地人的想法、情绪和行为方式。
把这个比喻应用到AI上,刚开始,AI就像是只懂得底子语言的旅者。但随着它学习和理解更多的自然语言,它就能更好地理解人类的意图、情绪和复杂思想。这种深入的理解能力是通往通用人工智能(AGI)的桥梁,因为它不但帮助AI理解语言本身,还帮助它理解使用这种语言的人类社会和文化。图:语言就像是一座桥.就像一个渐渐融入新都会的旅者,AI通过学习语言,能够渐渐
理解
并
到场
人类的世界。
从语言突破,较少的盘算量
OpenAI首席科学家Ilya Sutskever有句话:
“语言是人类知识的压缩”
对比视觉和声音,语言的压缩比要高许多。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
勿忘初心做自己
论坛元老
这个人很懒什么都没写!
楼主热帖
新一代企业级安全OneDNS
记一次有意思的业务实现 → 单向关注是 ...
集合论第6-8章
将git仓库从submodule转换为subtree ...
redis 工具类
Python 开发 漏洞的批量搜索与利用.(G ...
DNS协议
反射 p1 反射机制
Java 代理模式
[kubernetes]服务健康检查
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表