【深度学习】Transformer技能报告:架构与原理

金歌  论坛元老 | 2025-2-22 22:20:15 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1050|帖子 1050|积分 3150

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
一、引言

Transformer 是一种基于注意力机制(Attention Mechanism)的深度学习架构,最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,成为很多语言模型和任务的核心架构。Transformer 的计划理念是摒弃传统的循环神经网络(RNN)及其变体(如 LSTM 和 GRU),转而通过并行计算和注意力机制高效处理序列数据。
二、Transformer 的基本架构

2.1 总体架构

Transformer 采用编码器 - 解码器(Encoder-Decoder)架构,主要用于处理序列到序列的任务,如机器翻译、文本生成等。编码器负责将输入序列编码为上下文表现,解码器则基于这些上下文信息生成输出序列。整个架构由以下部门组成:
编码器(Encoder):由多个相同的层(通常为 6 层)堆叠而成,每层包含两个子层。
解码器(Decoder):同样由多个相同的层堆叠而成,每层包含三个子层。
输入嵌入与位置编码:为输入序列提供初始表现,并保留序列的顺序信息。
输出层:将解码器的输出转换为目标序列。
2.2 编码器(Encoder)

编码器由多个相同的层组成,每层包含两个子层:
多头自注意力层(Multi-Head Self-Attention Layer)
作用:允许模型在处理输入序列时,同时关注序列中的所有位置,捕获词与词之间的关系。
机制:将输入序列分割成多个 “头”(Head),每个头独立计算注意力权重,然后将所有头的输出拼接起来。这种计划可以或许捕获到输入序列中差别子空间的特征。
公式
                                         Attention                            (                            Q                            ,                            K                            ,                            V                            )                            =                            softmax                                       (                                                        Q                                                   K                                        T                                                                                      d                                        k                                                                   )                                      V                                  \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V                     Attention(Q,K,V)=softmax(dk​                     ​QKT​)V
此中,Q、K、V 分别代表查询(Query)、键(Key)和值(Value),                                             d                            k                                       d_k                  dk​是键向量的维度。
多头注意力:
                                         MultiHead                            (                            Q                            ,                            K                            ,                            V                            )                            =                            Concat                            (                                       head                               1                                      ,                            …                            ,                                       head                               h                                      )                                       W                               O                                            \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O                     MultiHead(Q,K,V)=Concat(head1​,…,headh​)WO
此中,                                             head                            i                                  =                         Attention                         (                         Q                                   W                            i                            Q                                  ,                         K                                   W                            i                            K                                  ,                         V                                   W                            i                            V                                  )                              \text{head}_i=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V)                  headi​=Attention(QWiQ​,KWiK​,VWiV​),h 是头的数目。
前馈网络层(Feed Forward Network Layer)
作用:对多头自注意力层的输出举行进一步处理。
结构:一个简单的全毗连网络,包含两个线性层和一个非线性激活函数(如 ReLU)。
公式
                                    FFN                         (                         x                         )                         =                         max                         ⁡                         (                         0                         ,                         x                                   W                            1                                  +                                   b                            1                                  )                                   W                            2                                  +                                   b                            2                                       \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2                  FFN(x)=max(0,xW1​+b1​)W2​+b2​
残差毗连与层归一化
残差毗连:将每个子层的输入直接加到输出上,制止梯度消失问题。
层归一化:对每个子层的输出举行归一化处理,稳定训练过程。
2.3 解码器(Decoder)

解码器同样由多个相同的层组成,每层包含三个子层:
掩码多头自注意力层(Masked Multi-Head Self-Attention Layer)
作用:处明白码器的输入序列,防止解码器在生成过程中看到未来的信息(即 “掩码” 操作)。
机制:与编码器的多头自注意力层类似,但在计算注意力时,对当前词之后的词施加掩码(Mask),使其注意力权重为零。
公式
                                    MaskedAttention                         (                         Q                         ,                         K                         ,                         V                         )                         =                         softmax                                   (                                                   Q                                               K                                     T                                                                               d                                     k                                                             +                            mask                            )                                  V                              \text{MaskedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + \text{mask}\right)V                  MaskedAttention(Q,K,V)=softmax(dk​                     ​QKT​+mask)V
编码器 - 解码器注意力层(Encoder-Decoder Attention Layer)
作用:将解码器的输入与编码器的输出举行交互,获取上下文信息。
机制:解码器的查询(Query)与编码器的键(Key)和值(Value)举行注意力计算,从而将编码器的上下文信息融入解码器的输出。
前馈网络层
作用:与编码器中的前馈网络类似,进一步处理信息。
解码器的输出颠末线性层和 softmax 函数,生成终极的猜测结果。
2.4 输入嵌入与位置编码

输入嵌入(Input Embedding)
作用:将输入序列中的每个词转换为固定维度的向量表现。
机制:通过查找表(Lookup Table)将每个词映射到一个预训练的嵌入向量。
位置编码(Positional Encoding)
作用:为模型提供序列中每个词的位置信息,因为 Transformer 不依赖于序列的顺序。
机制:位置编码是一个固定长度的向量,与输入嵌入相加,为模型提供位置信息。
公式
                                    PE                         (                         p                         o                         s                         ,                         2                         i                         )                         =                         sin                         ⁡                                   (                                       pos                                           1000                                               0                                                   2                                        i                                        /                                                       d                                           model                                                                                        )                                       \text{PE}(pos, 2i) = \sin\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right)                  PE(pos,2i)=sin(100002i/dmodel​pos​)
                                    PE                         (                         p                         o                         s                         ,                         2                         i                         +                         1                         )                         =                         cos                         ⁡                                   (                                       pos                                           1000                                               0                                                   2                                        i                                        /                                                       d                                           model                                                                                        )                                       \text{PE}(pos, 2i+1) = \cos\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right)                  PE(pos,2i+1)=cos(100002i/dmodel​pos​)
此中,pos 是词的位置,i 是维度,                                             d                            model                                       d_{\text{model}}                  dmodel​是模型的维度。
三、Transformer 的关键特性

并行化处理:与 RNN 差别,Transformer 可以并行处理整个序列,大大进步了训练服从。
长距离依赖建模:注意力机制允许模型直接捕获序列中恣意两个词之间的关系,办理了 RNN 在长序列中信息丢失的问题。
多头注意力机制:通过多个 “头” 从差别角度捕获序列特征,加强了模型的表达本领。
残差毗连与层归一化:进步了模型的训练稳定性,制止了深层网络中的梯度消失问题。
四、应用场景

Transformer 架构在自然语言处理领域取得了巨大成功,广泛应用于以下任务:
机器翻译:将一种语言的文本翻译成另一种语言。
文本生成:如谈天机器人、写作助手等。
文天职类:对文本举行情感分析、主题分类等。
问答系统:从文本中提取答案或生成答复。
语言模型:如 GPT、BERT 等预训练语言模型,基于 Transformer 架构开发。
五、总结

Transformer 架构依附其高效的并行计算本领和强大的长距离依赖建模本领,彻底改变了自然语言处理领域。它不但在学术研究中取得了显着结果,还在工业界得到了广泛应用。未来,Transformer 架构有望在更多领域发挥重要作用,推动人工智能技能的发展。
希望这份报告对你有帮助!如果你有任何问题或必要进一步补充 Transformer 在其他领域的应用实例、技能优化方向等内容,接待随时告诉我。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

金歌

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表