论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
云原生
›
为什么如今的LLM都是Decoder-only架构?从理论、训练效 ...
为什么如今的LLM都是Decoder-only架构?从理论、训练效率与工程实现等多维 ...
八卦阵
金牌会员
|
2024-11-21 07:30:43
|
显示全部楼层
|
阅读模式
楼主
主题
785
|
帖子
785
|
积分
2355
媒介
本篇从理论、训练效率以及工程实现角度来阐述当前主流Decoder-only架构的优越性。
LLM是“Large Language Model”的简写,现在一样平常指百亿参数以上的语言模子,重要面向
文本天生
任务。跟小尺度模子(10亿或以内量级)的“百花齐放”差别,现在LLM的一个近况是Decoder-only架构的研究居多,像OpenAI一直对峙Decoder-only的GPT系列就不说了,即便是Google这样的并非全部押注在Decoder-only的公司,也确实投入了不少的精力去研究Decoder-only的模子,如PaLM就是其中之一。
那么为什么Decoder-only架构会成为LLM的主流选择呢?
下面从理论、训练效率以及工程实现角度来阐明。
一、理论
我们知道全部NLP任务都可以分解为“输入”跟“输出”两部分,我们可以把处理惩罚“输入”的模子叫做Encoder,天生“输出”的模子叫做Decoder,那么全部任务都可以从“Encoder-Decoder”的视角来理解,而
差别模子之间的差距在于Encoder、Decoder的注意力模式以及是否共享参数
:
模子
Encoder
注意力
Dncoder
注意力
是否
共享参数
GPT
单向
单向
是
UniLM
双向
单向
是
T5
双向
单向
是
这里的GPT就是Decoder-only的代表作;UniLM则是跟GPT相似的Decoder架构,但它是混合的注意力模式;T5则是Encoder-Decoder架构的代表作,重要是Google比较感爱好。
1.
验证双向注意力/参数量带来的影响
那么起首通过对比实行确认一个题目:“
以往总是以为Encoder-Decoder架构效果好于Decoder-only架构,这是双向注意力导致的还是参数翻倍导致的?
”
根据苏神在10亿参数规模下做的GPT和UniLM对比实行效果来看,UniLM相比GPT并无任何上风,乃至某些任务更差,那么可以初步得到结论:“
输入部分的注意力改为双向不会带来收益,Encoder-Decoder架构的上风很大概只是源于参数翻倍
**。**”
由此也可以推断出,
在划一参数量、划一推理成本下,Decoder-only架构很大概是最优选择。
2.
双向注意力大概存在的低秩题目
为什么双向注意力不能带来收益,现在普遍的一个说法是,
双向注意力带来的低秩题目会导致效果下降
。下面来细说这一观点:
Attention矩阵自己就是由一个低秩分解矩阵加softmax而来,具体来说就是一个
n* d
的矩阵与
d* n
的矩阵相乘后再加_
softmax
_,其中n是远宏大于d的,
这种形式的Attention矩阵会因为低秩题目而带来表达本领下降
。
Decoder-only架构的attention矩阵是一个下三角,三角阵的行列式等于它对角线元素之积,由于softmax的存在,对角线一定都是正数,所以它的行列式一定是正数,即Decoder-only架构的Attention矩阵一定是满秩的!满秩意味着理论上有更强的表达本领,也就是说,Decoder-only架构的Attention矩阵在理论上具有更强的表达本领,改为双向注意力反而会变得不足。
3.
Decoder-only的zero-shot本领更强
二、训练效率与工程实现
1.
Encoder-only 架构更统一,训练、推理速率都更快
在多轮对话或者长序列的时候,encoder根本不会使用casual attention,那么基于history context重新计算一遍开销是很大的;而decoder-only采用casual attention,之前的计算效果可以保留,只需要计算新的token。
2.
Encoder-Decoder架构在巨大参数量下举行并行运算优化时非常轻易出题目
Encoder-Decoder的架构,当模子参数在百亿量级的时候,必须要并行运算,而encoder的架构因为更复杂一旦开始scale,任何一个非常小的题目都会被放大。
最后的最后
感谢你们的阅读和喜好,我收藏了很多技能干货,可以共享给喜好我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业差别于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个平凡人,无法全部学完,所以我们在提升技能的时候,起首需要明确一个目的,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
大模子知识脑图
为了成为更好的 AI大模子 开辟者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模子经典书籍可以帮助读者提高技能水平,开拓视野,把握核心技能,提高解决题目的本领,同时也可以鉴戒他人的履历。对于想要深入学习AI大模子开辟的读者来说,阅读经典书籍黑白常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
口试资料
我们学习AI大模子一定是想找到高薪的工作,下面这些口试题都是总结当前最新、最热、最高频的口试题,而且每道题都有具体的答案,口试前刷完这套口试题资料,小小offer,不在话下
640套AI大模子报告合集
这套包含640份报告的合集,涵盖了AI大模子的理论研究、技能实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感爱好的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
八卦阵
金牌会员
这个人很懒什么都没写!
楼主热帖
不可思议但又无处不在的漏洞,WEB安全 ...
【历史上的今天】6 月 2 日:苹果推出 ...
开源共建 | Dinky 扩展批流统一数据集 ...
C#实现HTTP访问类HttpHelper
袋鼠云春季生长大会圆满落幕,带来数实 ...
ClickHouse 查询优化详细介绍
企业应用超融合架构的设计实例及超融合 ...
Python字符串替换的3种方法
mysql基础练习(二)
大规模 IoT 边缘容器集群管理的几种架 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表