【深度学习】Transformer技能报告：架构与原理

金歌 · 2025-2-22 22:20:15

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

一、引言

Transformer 是一种基于注意力机制（Attention Mechanism）的深度学习架构，最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理（NLP）领域，成为很多语言模型和任务的核心架构。Transformer 的计划理念是摒弃传统的循环神经网络（RNN）及其变体（如 LSTM 和 GRU），转而通过并行计算和注意力机制高效处理序列数据。
二、Transformer 的基本架构

2.1 总体架构

Transformer 采用编码器 - 解码器（Encoder-Decoder）架构，主要用于处理序列到序列的任务，如机器翻译、文本生成等。编码器负责将输入序列编码为上下文表现，解码器则基于这些上下文信息生成输出序列。整个架构由以下部门组成：
编码器（Encoder）：由多个相同的层（通常为 6 层）堆叠而成，每层包含两个子层。
解码器（Decoder）：同样由多个相同的层堆叠而成，每层包含三个子层。
输入嵌入与位置编码：为输入序列提供初始表现，并保留序列的顺序信息。
输出层：将解码器的输出转换为目标序列。
2.2 编码器（Encoder）

编码器由多个相同的层组成，每层包含两个子层：
多头自注意力层（Multi-Head Self-Attention Layer）
作用：允许模型在处理输入序列时，同时关注序列中的所有位置，捕获词与词之间的关系。
机制：将输入序列分割成多个 “头”（Head），每个头独立计算注意力权重，然后将所有头的输出拼接起来。这种计划可以或许捕获到输入序列中差别子空间的特征。
公式：
                                       Attention                         (                         Q                         ,                         K                         ,                         V                         )                         =                         softmax                                     (                                                       Q                                                 K                                     T                                                                                     d                                     k                                                                )                                     V                               \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V                   Attention(Q,K,V)=softmax(dk                   QKT)V
此中，Q、K、V 分别代表查询（Query）、键（Key）和值（Value），                                           d                         k                                     d_k                dk是键向量的维度。
多头注意力：
                                       MultiHead                         (                         Q                         ,                         K                         ,                         V                         )                         =                         Concat                         (                                     head                            1                                     ,                         …                         ,                                     head                            h                                     )                                     W                            O                                           \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O                   MultiHead(Q,K,V)=Concat(head1,…,headh)WO
此中，                                           head                         i                               =                      Attention                      (                      Q                                  W                         i                         Q                               ,                      K                                  W                         i                         K                               ,                      V                                  W                         i                         V                               )                            \text{head}_i=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V)                headi=Attention(QWiQ,KWiK,VWiV)，h 是头的数目。
前馈网络层（Feed Forward Network Layer）
作用：对多头自注意力层的输出举行进一步处理。
结构：一个简单的全毗连网络，包含两个线性层和一个非线性激活函数（如 ReLU）。
公式：
                                 FFN                      (                      x                      )                      =                      max                      ⁡                      (                      0                      ,                      x                                  W                         1                               +                                  b                         1                               )                                  W                         2                               +                                  b                         2                                     \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2                FFN(x)=max(0,xW1+b1)W2+b2
残差毗连与层归一化
残差毗连：将每个子层的输入直接加到输出上，制止梯度消失问题。
层归一化：对每个子层的输出举行归一化处理，稳定训练过程。
2.3 解码器（Decoder）

解码器同样由多个相同的层组成，每层包含三个子层：
掩码多头自注意力层（Masked Multi-Head Self-Attention Layer）
作用：处明白码器的输入序列，防止解码器在生成过程中看到未来的信息（即 “掩码” 操作）。
机制：与编码器的多头自注意力层类似，但在计算注意力时，对当前词之后的词施加掩码（Mask），使其注意力权重为零。
公式：
                                 MaskedAttention                      (                      Q                      ,                      K                      ,                      V                      )                      =                      softmax                                  (                                                 Q                                              K                                  T                                                                            d                                  k                                                          +                         mask                         )                               V                            \text{MaskedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + \text{mask}\right)V                MaskedAttention(Q,K,V)=softmax(dk                   QKT+mask)V
编码器 - 解码器注意力层（Encoder-Decoder Attention Layer）
作用：将解码器的输入与编码器的输出举行交互，获取上下文信息。
机制：解码器的查询（Query）与编码器的键（Key）和值（Value）举行注意力计算，从而将编码器的上下文信息融入解码器的输出。
前馈网络层
作用：与编码器中的前馈网络类似，进一步处理信息。
解码器的输出颠末线性层和 softmax 函数，生成终极的猜测结果。
2.4 输入嵌入与位置编码

输入嵌入（Input Embedding）
作用：将输入序列中的每个词转换为固定维度的向量表现。
机制：通过查找表（Lookup Table）将每个词映射到一个预训练的嵌入向量。
位置编码（Positional Encoding）
作用：为模型提供序列中每个词的位置信息，因为 Transformer 不依赖于序列的顺序。
机制：位置编码是一个固定长度的向量，与输入嵌入相加，为模型提供位置信息。
公式：
                                 PE                      (                      p                      o                      s                      ,                      2                      i                      )                      =                      sin                      ⁡                                  (                                     pos                                        1000                                              0                                                 2                                     i                                     /                                                    d                                        model                                                                                     )                                     \text{PE}(pos, 2i) = \sin\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right)                PE(pos,2i)=sin(100002i/dmodelpos)
                                 PE                      (                      p                      o                      s                      ,                      2                      i                      +                      1                      )                      =                      cos                      ⁡                                  (                                     pos                                        1000                                              0                                                 2                                     i                                     /                                                    d                                        model                                                                                     )                                     \text{PE}(pos, 2i+1) = \cos\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right)                PE(pos,2i+1)=cos(100002i/dmodelpos)
此中，pos 是词的位置，i 是维度，                                           d                         model                                     d_{\text{model}}                dmodel是模型的维度。
三、Transformer 的关键特性

并行化处理：与 RNN 差别，Transformer 可以并行处理整个序列，大大进步了训练服从。
长距离依赖建模：注意力机制允许模型直接捕获序列中恣意两个词之间的关系，办理了 RNN 在长序列中信息丢失的问题。
多头注意力机制：通过多个 “头” 从差别角度捕获序列特征，加强了模型的表达本领。
残差毗连与层归一化：进步了模型的训练稳定性，制止了深层网络中的梯度消失问题。
四、应用场景

Transformer 架构在自然语言处理领域取得了巨大成功，广泛应用于以下任务：
机器翻译：将一种语言的文本翻译成另一种语言。
文本生成：如谈天机器人、写作助手等。
文天职类：对文本举行情感分析、主题分类等。
问答系统：从文本中提取答案或生成答复。
语言模型：如 GPT、BERT 等预训练语言模型，基于 Transformer 架构开发。
五、总结

Transformer 架构依附其高效的并行计算本领和强大的长距离依赖建模本领，彻底改变了自然语言处理领域。它不但在学术研究中取得了显着结果，还在工业界得到了广泛应用。未来，Transformer 架构有望在更多领域发挥重要作用，推动人工智能技能的发展。
希望这份报告对你有帮助！如果你有任何问题或必要进一步补充 Transformer 在其他领域的应用实例、技能优化方向等内容，接待随时告诉我。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【深度学习】Transformer技能报告：架构与原理

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块