我爱普洱茶 发表于 2024-6-19 20:44:40

[ai笔记13] 大模子架构对比盘点:Encoder-Only、Decoder-Only、Encoder-Dec

欢迎来到文思源想的ai空间,这是技能老兵重学ai以及发展思考的第13篇分享!
最近看完《这就是chatgpt》对于大语言模子的三种架构演进图印象颇深,今日就专题盘点一下三种大模子架构理论,同时做一个简朴对比。
https://img-blog.csdnimg.cn/img_convert/d6cf26018b2fa15f7deaa5b3e9efa9a1.png
1 Encoder-Only架构

Encoder-Only 架构,也被称为单向架构,仅包罗编码器部分。它重要实用于不需要生成序列的任务,只需要对输入进行编码和处理的单向任务场景,如文本分类、情绪分析等。这种架构的代表是 BERT 相关的模子,例如 BERT、RoBERT 和 ALBERT 等。
Encoder-Only 架构的核心思想是利用神经网络对输入文本进行编码,提取其特征和语义信息,并将编码效果通报给后续的处理模块。这种架构的优点是可以或许更好地理解输入文本的语义和上下文信息,从而提高文本分类和情绪分析等任务的准确性。缺点是它无法直接生成文本输出,因此在需要生成文本的任务中不太实用。
Encoder-Only架构的大模子有谷歌的BERT、智谱AI发布的第四代基座大语言模子GLM4等。其中,BERT是基于Encoder-Only架构的预练习语言模子。GLM4是智谱AI发布的第四代基座大语言模子,该模子在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4到达了GPT-4 88%的程度。
2 Decoder-Only架构

Decoder-Only 架构,也被称为生成式架构,仅包罗解码器部分。它通常用于序列生成任务,如文本生成、机器翻译等。这种架构的模子实用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时,Decoder-Only 架构还有一个重要特点是可以进行无监视预练习。在预练习阶段,模子通过大量的无标注数据学习语言的统计模式和语义信息。
Decoder-Only 架构的优点是擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。其缺点是需要大量的练习数据来提高生成文本的质量和多样性。
Decoder-Only架构的大模子的代表有GPT系列、LLaMA、OPT、BLOOM等。这类模子采用猜测下一个词进行练习,常见卑鄙任务有文本生成、问答等,因此被称为ALM(Autoregressive Language Model)。
国内采用Decoder-Only架构研发的大模子有妙想金融大模子、XVERSE-13B大模子等。其中,妙想金融大模子是东方财产旗下自主研发的金融行业大语言模子,现在已经覆盖了7B、13B、34B、66B及104B参数。而XVERSE-13B大模子是由前腾讯副总裁、腾讯AI lab创始人姚星建立的明星独角兽元象研发的,该模子支持40多种语言、8192上下文长度,在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。
3 Encoder-Decoder架构

Encoder-Decoder 架构,也被称为序列到序列架构,同时包罗编码器息争码器部分。它通常用于序列到序列(Seq2Seq)任务,如机器翻译、对话生成等。这种架构的代表是以 Google 练习出来的 T5 为代表的相关大模子。
Encoder-Decoder 架构的核心思想是利用编码器对输入序列进行编码,提取其特征和语义信息,并将编码效果通报给解码器。然后,解码器根据编码效果生成相应的输出序列。这种架构的优点是可以或许更好地处理输入序列和输出序列之间的关系,从而提高机器翻译和对话生成等任务的准确性。缺点是模子复杂度较高,练习时间和盘算资源消耗较大。
Encoder-Decoder架构的大模子有很多,例如Google的T5模子、华为的盘古NLP大模子等。
其中,华为的盘古NLP大模子初次使用Encoder-Decoder架构,兼顾NLP大模子的理解能力和生成能力,保证了模子在不同系统中的嵌入机动性。在卑鄙应用中,仅需少量样本和可学习参数即可完成千亿规模大模子的快速微调和卑鄙适配,这一模子在智能舆论以及智能营销方面都有不错的体现。
4 架构分析

以上三种架构各有优劣,其应用场景和前景也不尽相同。Encoder-Only 架构实用于文本分类和情绪分析等任务,其前景重要取决于其在这些任务中的性能和准确性。Decoder-Only 架构实用于文本生成和机器翻译等任务,其前景重要取决于其生成文本的质量和多样性。Encoder-Decoder 架构实用于机器翻译和对话生成等任务,其前景重要取决于其在这些任务中的性能和准确性。
总的来说,这三种架构都有其独特的优势和应用场景,将来的发展前景也非常广阔。随着技能的不断进步和应用场景的不断拓展,这三种架构将会得到更广泛的应用和发展。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: [ai笔记13] 大模子架构对比盘点:Encoder-Only、Decoder-Only、Encoder-Dec