人工智能最强大模子 Llama 3.1-405B 架构计划剖析

欢乐狗 发表于 2024-9-12 19:14:30

最强大模子 Llama 3.1-405B 架构计划剖析

—1—
最强大模子 Llama 3.1-405B 简介
在历经了两天的提前“泄露风波”后，Llama 3.1 终于正式揭开面纱，由官方对外公布。
新版 Llama 3.1 将其上下文处理本领扩展至 128K，推出了 8B、70B 及 405B 三个不同规模的版本，再次单枪匹马地提拔了大规模模子领域的竞争门槛。
对于 AI 大模子领域而言，Llama 3.1 405B 版本具有划时代的意义，它刷新了开源底子模子性能的极限。据 Meta 官方透露，该大模子在众多任务中的表现足以对抗当前最优的闭源模子。

https://img-blog.csdnimg.cn/img_convert/5fd6e23bc6ad585399b378be89482d4b.png
Llama3.1 405B数据集评测效果

https://img-blog.csdnimg.cn/img_convert/b55b294da4634a57c5df7f598a6a17cb.png
Llama3.1 405B人工评估
—2—
Llama 3.1-405B 架构计划剖析
Llama 3.1共开源了8B、70B、405B三种参数量的模子，此中 405B 除了FP16精度，还有FP8量化版模子，针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。

https://img-blog.csdnimg.cn/img_convert/5c7de1abf32b1cb1333717cad5d43af2.png
架构计划主要看点总结如下：
1. Llama3.1 405B 依然利用 decoder-only 结构的 transformer，没有利用混合专家。
2. 上下文长度增加到 128K。
3. 在语言模子后训练阶段，405B 通过监视微调和直接偏好优化等，进一步提拔了模子的性能和顺应性。监视微调利用大量的人工标注数据来微调模子，使其可以或许更好地依照人类的指令和偏好；直接偏好优化则通过学习人类的偏好来优化模子的输出，使其更加符合人类的期望。
4. 对于小参数量模子，Meta 利用 405B 模子去提拔小参数量模子的效果。
—3—
Llama 3.1 预训练过程剖析
Llama 3.1 的预训练过程分为三个关键阶段：
1、初始预训练阶段；
2、长文本上下文预训练；
3、退火过程。
总体来看，这一流程与现有的一些开源模子训练方法相似，但技能报告中透露了众多精细的技能细节。以下是各阶段的详细描述：
初始预训练阶段：这一阶段依照尺度的预训练流程，训练初期采用较小的批量巨细以保障训练稳定性，随后渐渐增大批量巨细以进步训练效率，直至达到每批 16M 个token。为了加强模子在多语言和数学推理方面的本领，特别增加了非英语内容和数学数据的比重。
长文本上下文预训练阶段：在预训练的后半程，利用长文本数据进行训练，以支持高达 128K 个token的上下文窗口。在这一阶段，采取了渐渐扩展上下文窗口的策略，对于 Llama 3 405B 模子，从最初的 8K token 上下文窗口开始，渐渐扩展，最终达到 128K token 的窗口巨细。此阶段消耗了约莫 800B 个token的训练数据。
退火过程：在预训练的最后 4000 万个token期间，采取了线性降低学习率至零的策略，同时保持 128K 个token的上下文长度。在这一退火阶段，对数据混合比例进行了调解，增加了如数学、代码、逻辑等高质量数据的影响。最终，通过取退火期间多个模子查抄点的均匀值，形成了最终的预训练模子。在训练后期对高质量数据进行上采样，这一做法在当前也是较为普遍的做法。
—4—
Llama 3.1 的 Post-Traning 剖析
当前，大型语言模子（LLM）的后训练主要采用两种策略，第一种是借鉴自ChatGPT的 SFT+RM+PPO 模式，该模式运用了强化学习，涉及众多必要调解的超参数，过程较为复杂，不易实现；另一种策略是 SFT+DPO 模式，省略了PPO 强化学习部分，简化流程，更易于操作。

https://img-blog.csdnimg.cn/img_convert/c4424a888d63dde903ff9f3b0fbc80b0.png
LLaMA 3.1 在后训练阶段主要采用了 SFT+DPO 模式，并加入了一些独特的计划。上图展示了 LLaMA 3.1 整个后训练流程。起初，利用人工标注数据训练RM 模子，以评估<Prompt, answer>数据的质量，随后利用 RM 进行拒绝采样。
详细来说，针对一个给定的人工 Prompt，模子生成多个答复，RM 对这些答复进行质量评分，选取评分最高的作为 SFT 数据，别的则弃用。这样筛选出的SFT 数据，团结专门用于提拔代码、数学、逻辑本领的 SFT 数据，共同用于微调模子，得到 SFT 模子。
接着，利用人工标注数据通过 DPO 模子调解LLM参数，DPO 实质上是一个二分类任务，它从<Prompt，Good Answer，Bad Answer>的三元数据中学习，调解模子参数以促使模子输出 Good Answer，克制输出 Bad Answer。这样就完成了一个后训练迭代周期。上述过程会多次重复，每次流程雷同，不同之处在于，在下一轮拒绝采样阶段生成答复的 LLM 模子，将选择上一轮流程中产生的多少不同 DPO 模子（具有不同超参数等）中表现最佳的一个。显然，随着迭代的进行，DPO 模子性能不断提拔，因此拒绝采样中选出的最佳答案质量也渐渐进步，进而使得 SFT 模子更加优秀，形成了一个正向反馈循环。可以看出，尽管 RLHF 和 DPO 两种模式都运用了 RM，但应用场景不同，RLHF 将 RM 评分用于 PPO 强化学习阶段，而 LLaMA 3.1 则利用 RM 筛选高质量的 SFT 数据。并且，由于拒绝采样的答复是由 LLM 生成的，这意味着在此过程中大量利用了合成数据来训练 SFT 模子。
—5—
LLama 3.1 405B 为何不消 MOE 架构？
大模子的 MOE 结构是否可以或许提拔模子性能？答案并非一定。
早在 ChatGPT 盛行之前，研究就已经得出结论，从模子性能影响的角度来看，MOE 结构相较于密集型（Dense）模子并不会带来额外的上风，偶然甚至可能存在劣势。
MOE 架构的主要优点在于降低训练和推理的成本，但这必要以训练稳定性降低和推理时必要更多内存来存储增加的参数为代价。在用户数量庞大、请求频仍的情况下，推理成本占据的比重更大，此时 MOE 结构在推理方面更为友爱，这也是为什么模子规模达到肯定程度后，其结构会从 Dense 转向 MOE 的主要缘故原由——这一变化更多是基于成本和效率的考量，而非性能。
我曾见过一些声称MOE结构性能更优的说法，但这些观点缺乏实证支持。Llama 3.1 405B 未采用 MOE 结构，技能报告指出，这是由于考虑到密集型模子在训练上更为稳定，因此选择了 Dense 结构。与 GPT 4 的 1.8T MOE 模子相比，405B 的 Dense 模子在性能上不相上下，甚至可能更胜一筹（当然，也不排除 GPT 4 可能已经是一个经过蒸馏的较小模子）。
—6—
有很多企业级落地实战案例，不方便公开
AI 大模子时代并不是你工作的尽头，而是新路程的起点。通过不断学习、积极转型和大胆探索，正在用自己的方式书写着属于自己的辉煌篇章。让我们一起期待在 AI 大模子新时代创造更多的可能！
https://i-blog.csdnimg.cn/direct/c507c55d85534c5087e24e22d1e08490.png
大模子的学习路线
第一阶段（10天）：初阶应用
该阶段让大家对大模子 AI有一个最前沿的认识，对大模子 AI 的明白凌驾 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 谈天，而你能调教 AI，并能用代码将大模子和业务衔接。

[*]大模子 AI 醒目什么？
[*]大模子是怎样得到「智能」的？
[*]用好 AI 的核心心法
[*]大模子应用业务架构
[*]大模子应用技能架构
[*]代码示例：向 GPT-3.5 灌入新知识
[*]提示工程的意义和核心头脑
[*]Prompt 典型构成
[*]指令调优方法论
[*]思维链和思维树
[*]Prompt 攻击和防范
[*]…
第二阶段（30天）：高阶应用
该阶段我们正式进入大模子 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的本领。快速开发一个完整的基于 agent 对话呆板人。把握功能最强的大模子开发框架，捉住最新的技能希望，得当 Python 和 JavaScript 程序员。

[*]为什么要做 RAG
[*]搭建一个简单的 ChatPDF
[*]检索的底子概念
[*]什么是向量表现（Embeddings）
[*]向量数据库与向量检索
[*]基于向量检索的 RAG
[*]搭建 RAG 系统的扩展知识
[*]混合检索与 RAG-Fusion 简介
[*]向量模子本地部署
[*]…
第三阶段（30天）：模子训练
恭喜你，如果学到这里，你根本可以找到一份大模子 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模子，能独立训练开源多模态大模子，把握更多技能方案。
到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

[*]为什么要做 RAG
[*]什么是模子
[*]什么是模子训练
[*]求解器 & 丧失函数简介
[*]小实验2：手写一个简单的神经网络并训练它
[*]什么是训练/预训练/微调/轻量化微调
[*]Transformer结构简介
[*]轻量化微调
[*]实验数据集的构建
[*]…
第四阶段（20天）：贸易闭环
对环球大模子从性能、吞吐量、成本等方面有肯定的认知，可以在云端和本地等多种情况下部署大模子，找到得当自己的项目/创业方向，做一名被 AI 武装的产品司理。

[*]硬件选型
[*]带你了解环球大模子
[*]利用国产大模子服务
[*]搭建 OpenAI 代理
[*]热身：基于阿里云 PAI 部署 Stable Diffusion
[*]在本地盘算机运行大模子
[*]大模子的私有化部署
[*]基于 vLLM 部署大模子
[*]案例：怎样优雅地在阿里云私有部署开源大模子
[*]部署一套开源 LLM 项目
[*]内容安全
[*]互联网信息服务算法存案
[*]…
学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。
如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模子 AI 的正确特征了。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

最强大模子 Llama 3.1-405B 架构计划剖析