为什么如今的LLM都是Decoder-only架构?从理论、训练效率与工程实现等多维
媒介本篇从理论、训练效率以及工程实现角度来阐述当前主流Decoder-only架构的优越性。
LLM是“Large Language Model”的简写,现在一样平常指百亿参数以上的语言模子,重要面向文本天生任务。跟小尺度模子(10亿或以内量级)的“百花齐放”差别,现在LLM的一个近况是Decoder-only架构的研究居多,像OpenAI一直对峙Decoder-only的GPT系列就不说了,即便是Google这样的并非全部押注在Decoder-only的公司,也确实投入了不少的精力去研究Decoder-only的模子,如PaLM就是其中之一。
那么为什么Decoder-only架构会成为LLM的主流选择呢?
下面从理论、训练效率以及工程实现角度来阐明。
一、理论
我们知道全部NLP任务都可以分解为“输入”跟“输出”两部分,我们可以把处理惩罚“输入”的模子叫做Encoder,天生“输出”的模子叫做Decoder,那么全部任务都可以从“Encoder-Decoder”的视角来理解,而差别模子之间的差距在于Encoder、Decoder的注意力模式以及是否共享参数:
模子
Encoder
注意力
Dncoder
注意力
是否
共享参数
GPT
单向
单向
是
UniLM
双向
单向
是
T5
双向
单向
是
这里的GPT就是Decoder-only的代表作;UniLM则是跟GPT相似的Decoder架构,但它是混合的注意力模式;T5则是Encoder-Decoder架构的代表作,重要是Google比较感爱好。
1. 验证双向注意力/参数量带来的影响
那么起首通过对比实行确认一个题目:“以往总是以为Encoder-Decoder架构效果好于Decoder-only架构,这是双向注意力导致的还是参数翻倍导致的?”
根据苏神在10亿参数规模下做的GPT和UniLM对比实行效果来看,UniLM相比GPT并无任何上风,乃至某些任务更差,那么可以初步得到结论:“输入部分的注意力改为双向不会带来收益,Encoder-Decoder架构的上风很大概只是源于参数翻倍**。**”
由此也可以推断出,在划一参数量、划一推理成本下,Decoder-only架构很大概是最优选择。
2. 双向注意力大概存在的低秩题目
为什么双向注意力不能带来收益,现在普遍的一个说法是,双向注意力带来的低秩题目会导致效果下降。下面来细说这一观点:
Attention矩阵自己就是由一个低秩分解矩阵加softmax而来,具体来说就是一个 n* d 的矩阵与 d* n 的矩阵相乘后再加_softmax_,其中n是远宏大于d的,这种形式的Attention矩阵会因为低秩题目而带来表达本领下降。
https://img-blog.csdnimg.cn/img_convert/f8c8014a88b02bc31411263c2edca727.png
Decoder-only架构的attention矩阵是一个下三角,三角阵的行列式等于它对角线元素之积,由于softmax的存在,对角线一定都是正数,所以它的行列式一定是正数,即Decoder-only架构的Attention矩阵一定是满秩的!满秩意味着理论上有更强的表达本领,也就是说,Decoder-only架构的Attention矩阵在理论上具有更强的表达本领,改为双向注意力反而会变得不足。
3. Decoder-only的zero-shot本领更强
二、训练效率与工程实现
1. Encoder-only 架构更统一,训练、推理速率都更快
在多轮对话或者长序列的时候,encoder根本不会使用casual attention,那么基于history context重新计算一遍开销是很大的;而decoder-only采用casual attention,之前的计算效果可以保留,只需要计算新的token。
2. Encoder-Decoder架构在巨大参数量下举行并行运算优化时非常轻易出题目
Encoder-Decoder的架构,当模子参数在百亿量级的时候,必须要并行运算,而encoder的架构因为更复杂一旦开始scale,任何一个非常小的题目都会被放大。
最后的最后
感谢你们的阅读和喜好,我收藏了很多技能干货,可以共享给喜好我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业差别于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个平凡人,无法全部学完,所以我们在提升技能的时候,起首需要明确一个目的,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://img-blog.csdnimg.cn/img_convert/d6ac0de3e67c99f86b72bcd7bc3f3c51.jpeg 大模子知识脑图
为了成为更好的 AI大模子 开辟者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
https://i-blog.csdnimg.cn/direct/5cac48273d614c9996c485fe32ce82f9.png
经典书籍阅读
阅读AI大模子经典书籍可以帮助读者提高技能水平,开拓视野,把握核心技能,提高解决题目的本领,同时也可以鉴戒他人的履历。对于想要深入学习AI大模子开辟的读者来说,阅读经典书籍黑白常有必要的。
https://i-blog.csdnimg.cn/direct/209b04165a2a4e5dba7f9274cf7abacb.png
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
https://i-blog.csdnimg.cn/direct/98e60092860742049149a5eb4dbd5496.png
口试资料
我们学习AI大模子一定是想找到高薪的工作,下面这些口试题都是总结当前最新、最热、最高频的口试题,而且每道题都有具体的答案,口试前刷完这套口试题资料,小小offer,不在话下
https://i-blog.csdnimg.cn/direct/c2c70128a0ed46f39d5a89320c66d76f.png
640套AI大模子报告合集
这套包含640份报告的合集,涵盖了AI大模子的理论研究、技能实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感爱好的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
https://i-blog.csdnimg.cn/direct/5ce90b1d8ef843fb8db8d74fa53cb276.png
这份完整版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://img-blog.csdnimg.cn/img_convert/d6ac0de3e67c99f86b72bcd7bc3f3c51.jpeg
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]