【Decoder-Only、Encoder-Only和Encoder-Decoder大模型架构区别、优缺点以 ...

瑞星  金牌会员 | 2024-6-13 21:15:04 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 535|帖子 535|积分 1605

Decoder-Only、Encoder-Only和Encoder-Decoder大模型架构区别、优缺点以及使用其架构的模型示例

1 Encoder-Only架构

Encoder-Only 架构,也被称为单向架构,仅包含编码器部分。它主要实用于不必要生成序列的任务,只必要对输入举行编码和处置处罚的单向任务场景,如文本分类、情绪分析等。这种架构的代表是 BERT 相干的模型,例如 BERT、RoBERT 和 ALBERT 等。
Encoder-Only 架构的核心思想是使用神经网络对输入文本举行编码,提取其特性和语义信息,并将编码结果传递给后续的处置处罚模块。这种架构的优点是能够更好地明白输入文本的语义和上下文信息,从而提高文本分类和情绪分析等任务的正确性。缺点是它无法直接生成文本输出,因此在必要生成文本的任务中不太实用。
Encoder-Only架构的大模型有谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4等。其中,BERT是基于Encoder-Only架构的预练习语言模型。GLM4是智谱AI发布的第四代基座大语言模型,该模型在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。
界说和特点

Encoder-Only架构专注于明白和编码输入信息,常用于分类、标注等任务。
优点

强盛的明白能力:能够有用处置处罚和明白输入数据。
实用性广泛:实用于多种分析型任务。
缺点

生成能力有限:不善于自主生成文本或内容。
示例模型

Google的BERT是一个典型的Encoder-Only架构模型。
2 Decoder-Only架构

Decoder-Only 架构,也被称为生成式架构,仅包含解码器部分。它通常用于序列生成任务,如文本生成、呆板翻译等。这种架构的模型实用于必要生成序列的任务,可以从输入的编码中生成相应的序列。同时,Decoder-Only 架构还有一个重要特点是可以举行无监视预练习。在预练习阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。
Decoder-Only 架构的优点是善于创造性的写作,比如写小说或主动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。其缺点是必要大量的练习数据来提高生成文本的质量和多样性。
Decoder-Only架构的大模型的代表有GPT系列、LLaMA、OPT、BLOOM等。这类模型采用预测下一个词举行练习,常见卑鄙任务有文本生成、问答等,因此被称为ALM(Autoregressive Language Model)。
国内采用Decoder-Only架构研发的大模型有妙想金融大模型、XVERSE-13B大模型等。其中,妙想金融大模型是东方财产旗下自主研发的金融行业大语言模型,目前已经覆盖了7B、13B、34B、66B及104B参数。而XVERSE-13B大模型是由前腾讯副总裁、腾讯AI lab首创人姚星创立的明星独角兽元象研发的,该模型支持40多种语言、8192上下文长度,在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。
界说和特点

Decoder-Only架构专注于从一系列输入生成或预测输出。这种架构通常用于文本生成任务,如语言模型。
优点

强盛的生成能力:能够生成连贯、有创造性的文本。
灵活性:实用于各种生成型任务。
缺点

有限的明白能力:不善于明白复杂的输入数据。
示例模型

OpenAI的GPT系列(如GPT-4)是Decoder-Only架构的经典例子。
3 Encoder-Decoder架构

Encoder-Decoder 架构,也被称为序列到序列架构,同时包含编码器息争码器部分。它通常用于序列到序列(Seq2Seq)任务,如呆板翻译、对话生成等。这种架构的代表是以 Google 练习出来的 T5 为代表的相干大模型。
Encoder-Decoder 架构的核心思想是使用编码器对输入序列举行编码,提取其特性和语义信息,并将编码结果传递给解码器。然后,解码器根据编码结果生成相应的输出序列。这种架构的优点是能够更好地处置处罚输入序列和输出序列之间的关系,从而提高呆板翻译和对话生成等任务的正确性。缺点是模型复杂度较高,练习时间和计算资源斲丧较大。
Encoder-Decoder架构的大模型有很多,例如Google的T5模型、华为的盘古NLP大模型等。
其中,华为的盘古NLP大模型首次使用Encoder-Decoder架构,分身NLP大模型的明白能力和生成能力,保证了模型在差别系统中的嵌入灵活性。在卑鄙应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和卑鄙适配,这一模型在智能舆论以及智能营销方面都有不错的表现。
界说和特点

Encoder-Decoder架构联合了编码器息争码器的优点,通常用于必要明白输入并生成相应输出的任务,如呆板翻译。
优点

灵活强盛:能够明白复杂输入并生成相干输出。
实用于复杂任务:如呆板翻译、文本择要等。
缺点

架构复杂:相比单一的Encoder或Decoder,它更复杂。
练习挑衅:必要更多的数据和计算资源。
示例模型

Google的T5是一个著名的Encoder-Decoder架构模型,智谱AI的ChatGLM也是Encoder-Decoder架构模型。
4 架构分析

以上三种架构各有优劣,其应用场景和前景也不尽相同。Encoder-Only 架构实用于文本分类和情绪分析等任务,其前景主要取决于其在这些任务中的性能和正确性。Decoder-Only 架构实用于文本生成和呆板翻译等任务,其前景主要取决于其生成文本的质量和多样性。Encoder-Decoder 架构实用于呆板翻译和对话生成等任务,其前景主要取决于其在这些任务中的性能和正确性。
总的来说,这三种架构都有其独特的上风和应用场景,未来的发展前景也非常广阔。随着技能的不停进步和应用场景的不停拓展,这三种架构将会得到更广泛的应用和发展。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

瑞星

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表