常见大模型——LLaMA模型

打印 上一主题 下一主题

主题 984|帖子 984|积分 2952


目录
1.LLaMA网络模型架构
2.LLaMA网络的升级迭代过程
3.注意力机制


        LLaMA(Large Language Model Meta AI)是由Meta开发的一种大规模语言模型,旨在提高天然语言处理使命的性能。LLaMA基于Transformer机构,并颠末大规模数据练习,以便在多种语言使命中体现出色。LLaMA在Transformer结构的基础上,接纳前置层归一化(Pre-normalization)和RMSNorm归一化函数(Normalizing Function)、SwiGLU激活函数,并使用了旋转位置嵌入(RoPE)。
1.LLaMA网络模型架构

       基于Transformer架构:LLaMA 模型接纳了Transformer 的解码器架构,由多个 Transformer 块堆叠而成。
       多头自注意力机制(Multi-Head Self-Attention):在每个 Transformer 块中,起首是多头自注意力机制,它允许模型并行地对输入序列中的差别位置进行关注,从而更好地捕获长序列中的语义信息。每个头都有自己的查询(Query)、键(Key)和值(Value)矩阵,通过计算点积注意力来确定每个位置对其他位置的关注程度。其结构如下图所示:

      前馈神经网络(Feedforward Neural Network):在自注意力机制之后,是一个前馈神经网络,它对每个位置的表现进行进一步的变更和处理,通常由两个线性层和一个激活函数组成,如 ReLU 或 GeLU 等。
       规范化和激活函数:LLaMA 在输入每个子层之前使用 RMS Norm 进行归一化,以提高练习稳定性和性能。激活函数接纳 Swiglu,它结合了 Swish 和 GLU 的长处,可以或许显著提高模型质量。
     位置编码:为了捕获输入序列中单词的顺序信息,LLaMA 使用了旋转位置编码(Rotary Positional Embedding,RoPE),将绝对位置编码和相对位置编码相结合,通过在自注意力机制中对查询和键向量进行旋转操作,来表现位置信息。
2.LLaMA网络的升级迭代过程

LLaMA 1:最初发布的版本,奠定了模型的基本架构和练习方法,接纳了 Transformer 的解码器架构,并引入了如 RMS Norm、Swiglu 激活函数和旋转位置编码等技能,以提高模型的性能和练习稳定性。
LLaMA 2:在 LLaMA 1 的基础上进行了优化和改进,在预练习数据量、模型结构和练习方法等方面都有所提拔。预练习数据量大幅增加,使得模型可以或许学习到更丰富的语言知识和语义信息。在模型结构上,大概对一些超参数进行了调解,如层数、头数和维度等,以进一步提高模型的性能。同时,在练习方法上,接纳了更先辈的优化算法和技巧,如分组查询注意力(Grouped-Query Attention)等,提高了练习服从和模型质量。
LLaMA 3:于 2024 年 4 月发布,主要在以下几个方面进行了升级:
预练习数据和语料库:预练习语料库规模相比 LLaMA 2 增加了 650%,练习数据的丰富度和多样性的提拔有助于模型更好地理解和天生各种范例的文本。
上下文长度:将 8B 和 70B 模型的上下文长度从 4k 翻倍到 8k,使模型可以或许更好地处理长文本序列,更实用于一些必要较长上下文信息的使命,如长篇文章天生、多轮对话等。
分组查询注意力:在 8B 和 70B 变体中接纳了分组查询注意力机制,进一步优化了模型对长序列的处理本领和计算服从。
LLaMA 3.1:在 2024 年 7 月推出,相比 LLaMA 3 有以下改进:
参数规模和模型变体:模型参数范围从 8B 到 405B,其中 405B 参数变体是最大的密集 Transformer 模型,可以或许处理更复杂的使命和模式。
上下文长度扩展:将上下文窗口扩展到 128k tokens,极大地增强了模型对长文本的处理本领,更适合处理长篇小说、复杂的技能文档等。
多模态本领探索:进行了多模态实验,包括图像和语音编码器的预练习,以及视觉和语音适配器的练习,为模型未来实现多模态融合奠定了基础。
LLaMA 3.2:于 2024 年 9 月发布,主要更新包括:
轻量化和多样化的模型规模:发布了 1B 和 3B 参数的纯文本模型,以及 11B 和 90B 参数的视觉增强模型,满足了差别用户和应用场景对模型规模和性能的需求。
多模态本领的正式引入:具备了处理文本和图像的多模态本领,通过在模型中集成图像编码器和相干的适配器,实现了文本和图像的交互和融合,可应用于图像字幕天生、视觉问答等领域。
针对边缘和移动装备的优化:对模型进行了优化,使其可以或许在边缘和移动装备上更高效地运行,降低了对硬件资源的要求,提高了模型的可部署性和实用性。
3.注意力机制

稀疏注意力机制:LLaMA 模型接纳了稀疏注意力机制,与传统的全注意力机制差别,它只选择性地关注输入序列中的一部分令牌,而不是全部令牌。通过这种方式,大大降低了计算复杂度,提高了模型的练习和推理服从,同时在一定程度上保持了模型的正确性。
分组查询注意力:在 LLaMA 3 及后续版本中,引入了分组查询注意力机制,将查询向量分成多个组,每组分别进行注意力计算,然后将结果归并。这种机制在处理长序列时,可以或许进一步淘汰计算量,提高模型的并行性和服从,同时也有助于模型更好地捕获长序列中的局部和全局信息。
        在LLaMA1之前,大厂们的主要方向还是去堆积网络深度和层数,但是LLaMA给我们灌输的核生理念: 在给定的计算预算下,最佳性能并不是由最大的模型实现的,而是由更多数据练习的较小模型实现的。重点是练习一系列语言模型,以在各种推理预算下实现最佳性能,通过使用更多token进行练习,而不是通常使用的数量。LLaMA目标在于: 通过在超大规模的数据上练习,给出一系列大概最好performance的LLM。这同时也为之后LLaMa2的推出埋下了伏笔。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我爱普洱茶

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表