探索和构建 LLaMA 3 架构:深入探究组件、编码和推理技能(一) ...

打印 上一主题 下一主题

主题 958|帖子 958|积分 2874

探索和构建 LLaMA 3 架构:深入探究组件、编码和推理技能(一)
Meta 通过推出新的开源 AI 模型 Llama 3 以及新版本的 Meta AI,正在加强其在人工智能 (AI) 比赛中的竞争力。该虚拟助手由 Llama 3 提供支持,现已可在所有 Meta 平台上使用。


  • Llama 3 是什么?:Meta 推出了 Llama 3,这是其 Llama 系列开源 AI 模型中的最新版本。 Llama 3 有两种变体:一种具有 80 亿个参数,另一种具有 700 亿个参数。Meta 声称 Llama 3 在这些参数尺度上为大型语言模型设立了新标准。他们改进了练习前和练习后流程,从而低落了错误拒绝率、更好的对齐以及模型的更多样化的响应。值得注意的是,Llama 3 拥有增强的推理、代码生成和指令跟踪能力。

LLaMA 架构:


  • 与前代模型之间的主要区别在于,预练习语料库的大小增加了 650% ,LLaMA 2 在 2T标记上进行练习,而 LLaMA 3 在 15T 标记上进行练习,模型的上下文长度从 4K 增加了一倍到 8K ,8B 和 70B 模型,并对 8B 和 70B 变体接纳分组查询注意力,与上一代(GQA)相比,仅在更大的模型 34B 和 70B 中使用。最有影响力的部门是新的安全方法,包罗安全和有效两种奖励模式。
Llama3 模型大小、架构、优化超参数




llama2 模型大小、架构、优化超参数


Llama1 参数


Llama架构


LLaMA 3 架构主要接纳与 LLaMA 2 雷同的架构,此中 GQA(分组查询注意)用于 8B 和 70B 模型,RoPE(旋转位置嵌入)用于 Q、K,因为 V 仅在应用 SoftMax 之前相乘函数,RMS(均方根误差)用于在 Self Attention 之前应用的归一化,前馈块,KV 缓存也与 LLMA 中使用的保持雷同。注意:此模型架构仅专注于模型推理,而不是用于练习,因此具有交叉注意力的解码器块不会被覆盖,KV 缓存也不会用于模型的练习阶段。
大模型技能分享




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

光之使者

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表