qidao123.com技术社区-IT企服评测·应用市场

标题: Llama3架构揭秘&FMOps [打印本页]

作者: 张国伟    时间: 2024-11-12 23:37
标题: Llama3架构揭秘&FMOps
一、生成式AI的六个使用阶段

企业在今天和年底将如何渐渐采用和管理AI和机器学习模子的过程,分为六个阶段:


为了最大化模子的效益,建议采用第5阶段的方法,因为这可以大大增长用户的机动性。根据特定领域的需求定制模子对于实现最大收益至关重要。如果不参与系统深条理的自定义和优化,很难获得最佳回报。在达到这一点的过程中,需要具备一套布局和清晰的路线图。这包括:

二、从FMOps到DevOps

FMOps ⊆ MLOps ⊆ DevOps
MLOps =Machine Learning Operations
是机器学习工程的一部分,主要负责开发、部署和维护 ML 模子,确保其可靠高效地运行。MLOps 属于 DevOps(开发与运营)范畴,但专门针对 ML 模子。
FMOps =Foundational Model Operations,通过选择、评估和微调 LLM,可用于生成式人工智能场景。




三、浅析Llama3 8B的架构

Llama3少自注意力层与前身神经网络层。
详细流程如下:


权衡一个深度学习模子的参数:

现在我们已经定义了这些术语,让我们来看看这些参数在LlaMa 3模子中的实际数值。

[1] 上下文窗口(context-window)
在实例化LlaMa类时,变量max_seq_len定义了context-window。类中尚有其他参数,但这个参数与transformer模子的关系最为直接。这里的max_seq_len是8K。


[2] 词汇量(Vocabulary-size)和注意力层(Attention Layers)
接下来是Transformer类,它定义了词汇量和层数。这里的词汇量是指模子能够辨认和处置惩罚的单词(和tokens)集。Attention layers指的是模子中使用的transformer block(attention和feed-forward layers的组合)。


根据这些数字,LlaMa 3的词汇量为128K,这是相当大的。此外,它有32个transformer block。

[3] 特征维度(Feature-dimension)和注意力头(Attention-Heads)
特征维度和attention-heads被引入到Self-Attention模块中。Feature dimension指的是嵌入空间中tokens的向量巨细,而attention-heads包括驱动transformers中self-attention机制的QK-module。

[4] 隐蔽维度(Hidden Dimensions)
隐蔽维度出现在Feed-Forward类中,指定了模子中隐蔽层的数量。对于LlaMa 3,隐蔽层的巨细是特征维度的1.3倍。更多的隐蔽层数量允许网络在将它们投射回较小的输出维度之前,内部创建和使用更丰富的表示。

[5] 将上述参数组合成Transformer
第一个矩阵是输入特征矩阵,通过Attention layer处置惩罚生成Attention Weighted features。在这幅图像中,输入特征矩阵只有5 x 3的巨细,但在真实的Llama 3模子中,它增长到了8K x 4096,这是巨大的。

接下来是Feed-Forward Network中的隐蔽层,增长到5325,然后在最后一层回落到4096。

[6] Transformer block的多层
LlaMa 3结合了上述32个transformer block,输出从一个block转达到下一个block,直到达到最后一个。

[7] 把全部这些放在一起
一旦我们启动了全部上述部分,就是时候把它们整合在一起,看看它们是如何产生LlaMa效果的。


步调1:起首我们有我们的输入矩阵,巨细为8K(context-window)x 128K(vocabulary-size)。这个矩阵颠末嵌入处置惩罚,将这个高维矩阵转换为低维。

步调2:在这种情况下,这个低维效果变为4096,这是我们之前看到的LlaMa模子中特征的指定维度。
在神经网络中,升维和降维都是常见的操纵,它们各自有不同的目的和效果。

升维通常是为了增长模子的容量,使其能够捕捉更复杂的特征和模式。当输入数据被映射到一个更高维度的空间时,不同的特征组合可以被模子更轻易地区分。这在处置惩罚非线性问题时尤其有用,因为它可以帮助模子学习到更复杂的决策边界  。

降维则是为了减少模子的复杂性和过拟合的风险。通过减少特征空间的维度,模子可以被迫学习更加精炼和泛化的特征表示。此外,降维可以作为一种正则化手段,有助于进步模子的泛化本领。在某些情况下,降维还可以减少盘算成本和进步模子的运行服从 。

在实际应用中,升维后再降维的策略可以被视为一种特征提取和变换的过程。在这个过程中,模子起首通过增长维度来探索数据的内涵布局,然后通过降维来提取最有用的特征和模式。这种方法可以帮助模子在保持充足复杂性的同时,制止过度拟合训练数据  。

步调3:这个特征通过Transformer block举行处置惩罚,起首由Attention layer处置惩罚,然后是FFN layer。Attention layer横向跨特征处置惩罚,而FFN layer则纵向跨维度处置惩罚。

步调4:步调3为Transformer block的32层重复。终极,效果矩阵的维度与用于特征维度的维度雷同。

步调5:最后,这个矩阵被转换回原始的词汇矩阵巨细,即128K,以便模子可以选择并映射词汇中可用的单词。

这就是LlaMa 3在那些基准测试中取得高分并创造LlaMa 3效应的方式。
最后,我们将轻易搞混的几个术语用简短的语言总结一下:
1. max_seq_len (最大序列长度)

这是模子在单次处置惩罚时能够担当的最大token数。
在LlaMa 3-8B模子中,这个参数设定为8,000个tokens,即Context Window Size = 8K。这意味着模子在单次处置惩罚时可以考虑的最大token数量为8,000。这对于理解长文本或保持恒久对话上下文非常关键。
2. Vocabulary-size (词汇量)

这是模子能辨认的全部不同token的数量。这包括全部大概的单词、标点符号和特别字符。模子的词汇量是128,000,表示为Vocabulary-size = 128K。这意味着模子能够辨认和处置惩罚128,000种不同的tokens,这些tokens包括各种单词、标点符号和特别字符。

3. Attention Layers (注意力层)

Transformer模子中的一个主要组件。它主要负责通过学习输入数据中哪些部分最重要(即“注意”哪些token)来处置惩罚输入数据。一个模子大概有多个这样的层,每层都试图从不同的角度理解输入数据。
LlaMa 3-8B模子包含32个处置惩罚层,即Number of Layers = 32。这些层包括多个Attention Layers及其他范例的网络层,每层都从不同角度处置惩罚和理解输入数据。
4. transformer block 

包含多个不同层的模块,通常至少包括一个Attention Layer和一个Feed-Forward Network(前馈网络)。一个模子可以有多个transformer block,这些block顺序连接,每个block的输出都是下一个block的输入。
在Transformer模子的语境中,通常我们说模子有“32层”,这可以等同于说模子有“32个Transformer blocks”。每个Transformer block通常包含一个自注意力层和一个前馈神经网络层,这两个子层共同构成了一个完整的处置惩罚单元或“层”。

因此,当我们说模子有32个Transformer blocks时,实际上是在描述这个模子由32个这样的处置惩罚单元组成,每个单元都有本领举行数据的自注意力处置惩罚和前馈网络处置惩罚。这种表述方式夸大了模子的层级布局和其在每个层级上的处置惩罚本领。

总结来说,"32层"和"32个Transformer blocks"在描述Transformer模子布局时根本是同义的,都指模子包含32次独立的数据处置惩罚周期,每个周期都包括自注意力和前馈网络操纵。
5. Feature-dimension (特征维度)

这是输入token在模子中表示为向量时,每个向量的维度。
每个token在模子中被转换成一个含4096个特征的向量,即Feature-dimension = 4096。这个高维度使得模子能够捕捉更丰富的语义信息和上下文关系。
6. Attention-Heads (注意力头)

在每个Attention Layer中,可以有多个Attention-Heads,每个head独立地从不同的视角分析输入数据。
每个Attention Layer包含32个独立的Attention Heads,即Number of Attention Heads = 32。这些heads分别从不同的方面分析输入数据,共同提供更全面的数据解析本领。
7. Hidden Dimensions (隐蔽维度)

这通常指的是在Feed-Forward Network中的层的宽度,即每层的神经元数量。通常,Hidden Dimensions会大于Feature-dimension,这允许模子在内部创建更丰富的数据表示。
在Feed-Forward Networks中,隐蔽层的维度为5325,即Hidden Dimensions = 5325。这比特征维度大,允许模子在内部层之间举行更深条理的特征转换和学习。
关系和数值:





更多科研




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4