IT评测·应用市场-qidao123.com

标题: Llama系列关键知识总结 [打印本页]

作者: 兜兜零元    时间: 2025-1-2 16:25
标题: Llama系列关键知识总结
系列文章目次

第一章:LoRA微调系列笔记
第二章:Llama系列关键知识总结
第三章:LLaVA模型讲授与总结


  

Llama: Open and Efficient Foundation Language Models

关键要点

Meta发布的完全开源的大语言模型,参数量从7B到65B,llama只在公开数据集上进行训练,但依然取得了强大的性能。LLaMa-13B在很多基准测试中都优于GPT-3(175B)
GPT-3把模型的参数量扩大到175B并取得了惊人的涌现本领,使得后续研究者都信赖,随着模型参数量的增大,模型必将取得更好的性能,因今后续的很多工作都放在了扩大大语言模型的参数量级,但扩大参数量级真的就是唯一的研究路径了吗?我们是不是忽视了数据对模型性能的影响?
DeepMind在NeurIPS2022上发表Training Compute-Optimal Large Language Models论文,发现:训练最优性能的LLM模型,模型的参数量和训练数据规模需要同比增大。因此,当我们在相同的计算资源下,LLM的性能不但可以通过增长参数量来实现性能提升,也可以通过提升数据量来提升,因此数据也参数量级同样重要。
但假如从推理本钱思量,大部分用户是不需要自己训练LLM的,只是用LLM进行推理就可以了,因此思量推理的性能,小参数的LLM是更加友爱的,LLaMa 沿着小 LLM 配大数据训练的指导头脑,训练了一系列性能刁悍的语言模型,参数量从 7B 到 65B。比方,LLaMA-13B 比 GPT-3(175B)小10倍,但是在大多数基准测试中都优于 GPT-3。大一点的 65B 的 LLaMa 模型也和 Chinchilla 或者 PaLM-540B 的性能相称。
LLaMa模型架构:

Llama2

预训练语料库的大小增长了 40%,模型的上下文长度翻倍,并采用了分组查询留意力。发布了 7B、13B 和 70B 参数的 Llama 2 变体
与 Llama 1的重要架构差别包括增长上下文长度分组查询留意力 (GQA)

分组查询留意力 (GQA)

增长上下文长度比较好理解,简单的在训练前规定了最大上下文长度为4096,本文重要先容LLaMA2中改进的留意力机制。

Llama3

关键信息

引用:

LLaMa系列模型详解(原理先容、代码解读):LLaMa
LLaMa系列模型详解(原理先容、代码解读):LLaMA 2
LLaMa系列模型详解(原理先容、代码解读):LLaMA 3

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4