LLaMA 和 GPT 一样,也是基于 Transformer 架构的生成模型,但 Meta 针对其规模进行了优化,使其在较小的模型下也能显现强大的性能。
5. 总结:各个transfomer架构模型区别与联系表格整理
模型架构使命类型预练习方式主要应用Transformer编码器-解码器通用架构N/ANLP 和 CV 使命的基础架构BERT编码器文本明白(分类、问答等)Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)文本明白使命,特别是分类和问答GPT解码器文本生成语言模型(LM)预练习文本生成使命,如对话生成、文章生成LLaMA解码器文本生成自回归语言模型文本生成,强调轻量化大模型 a.主要联系:架构基础相同+注意力机制