Llama系列关键知识总结

打印 上一主题 下一主题

主题 1014|帖子 1014|积分 3042

系列文章目次

第一章:LoRA微调系列笔记
第二章:Llama系列关键知识总结
第三章:LLaVA模型讲授与总结


  

Llama: Open and Efficient Foundation Language Models

关键要点

Meta发布的完全开源的大语言模型,参数量从7B到65B,llama只在公开数据集上进行训练,但依然取得了强大的性能。LLaMa-13B在很多基准测试中都优于GPT-3(175B)
GPT-3把模型的参数量扩大到175B并取得了惊人的涌现本领,使得后续研究者都信赖,随着模型参数量的增大,模型必将取得更好的性能,因今后续的很多工作都放在了扩大大语言模型的参数量级,但扩大参数量级真的就是唯一的研究路径了吗?我们是不是忽视了数据对模型性能的影响?
DeepMind在NeurIPS2022上发表Training Compute-Optimal Large Language Models论文,发现:训练最优性能的LLM模型,模型的参数量和训练数据规模需要同比增大。因此,当我们在相同的计算资源下,LLM的性能不但可以通过增长参数量来实现性能提升,也可以通过提升数据量来提升,因此数据也参数量级同样重要。
但假如从推理本钱思量,大部分用户是不需要自己训练LLM的,只是用LLM进行推理就可以了,因此思量推理的性能,小参数的LLM是更加友爱的,LLaMa 沿着小 LLM 配大数据训练的指导头脑,训练了一系列性能刁悍的语言模型,参数量从 7B 到 65B。比方,LLaMA-13B 比 GPT-3(175B)小10倍,但是在大多数基准测试中都优于 GPT-3。大一点的 65B 的 LLaMa 模型也和 Chinchilla 或者 PaLM-540B 的性能相称。
LLaMa模型架构:


  • 与GPT等天生模型雷同,LLaMA也只使用了Transformer的解码器
  • Pre-normalization:为了提高训练稳定性,LLaMa 对每个 Transformer 的子层的输入进行归一化,而不是对输出进行归一化。使用 RMSNorm归一化函数。
  • SwiGLU激活函数
  • Rotary Embedding LLaMa 去掉了绝对位置编码,使用旋转位置编码
Llama2

预训练语料库的大小增长了 40%,模型的上下文长度翻倍,并采用了分组查询留意力。发布了 7B、13B 和 70B 参数的 Llama 2 变体
与 Llama 1的重要架构差别包括增长上下文长度分组查询留意力 (GQA)

分组查询留意力 (GQA)

增长上下文长度比较好理解,简单的在训练前规定了最大上下文长度为4096,本文重要先容LLaMA2中改进的留意力机制。


  • MHA(Multi-Head Attention):输入数据分成多个头,每个头独立进行留意力计算;每个head完成QKV计算后进行相加输出。
  • MQA(Multi-Query Attention):Q仍然是多头的,KV是共享的;举例来说,以ChatGLM2-6B为例,一共28层,32个留意力头,若采用MHA,则Q、K、V矩阵各有28×32个,而采用MQA的方式则整个模型包罗28×32个Q矩阵,28×1个K矩阵,28×1个V矩阵。这种方法在提高推理服从的同时,也可以或许保持模型的性能。
  • GQA(Group-Query Attention):Q仍然是多头的,KV是分组共享的,减少了KV缓存所需要的缓存空间,同时也避免了参数减少导致的精度丧失严峻,在参数和精度两方面进行了平衡。
Llama3

关键信息


  • 2024年4月,Meta 重磅推出了Meta Llama 3大语言模型
  • 从模型架构上看,LLaMA 3和LLaMA 2基本没有区别,同样使用了Transformer的Decoder-only架构
  • Llama 3在超过15T的token上进行预训练,全部数据都来自公开可用的来源。我们的训练数据集比用于Llama 2的数据集大了七倍,并且包括了四倍的代码。为了预备即将到来的多语言用例,超过5%的Llama 3预训练数据集由高质量的非英语数据构成,覆盖了超过30种语言。然而,我们不期望在这些语言中到达与英语相同的性能程度。
引用:

LLaMa系列模型详解(原理先容、代码解读):LLaMa
LLaMa系列模型详解(原理先容、代码解读):LLaMA 2
LLaMa系列模型详解(原理先容、代码解读):LLaMA 3

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

兜兜零元

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表