编码器由多个相同的层组成,每层包含两个子层: 多头自注意力层(Multi-Head Self-Attention Layer) 作用:允许模型在处理输入序列时,同时关注序列中的所有位置,捕获词与词之间的关系。 机制:将输入序列分割成多个 “头”(Head),每个头独立计算注意力权重,然后将所有头的输出拼接起来。这种计划可以或许捕获到输入序列中差别子空间的特征。 公式:
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V
此中,Q、K、V 分别代表查询(Query)、键(Key)和值(Value), d k d_k dk是键向量的维度。
多头注意力:
MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)=Concat(head1,…,headh)WO
此中, head i = Attention ( Q W i Q , K W i K , V W i V ) \text{head}_i=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V) headi=Attention(QWiQ,KWiK,VWiV),h 是头的数目。 前馈网络层(Feed Forward Network Layer) 作用:对多头自注意力层的输出举行进一步处理。 结构:一个简单的全毗连网络,包含两个线性层和一个非线性激活函数(如 ReLU)。 公式:
FFN ( x ) = max ( 0 , x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2 FFN(x)=max(0,xW1+b1)W2+b2 残差毗连与层归一化 残差毗连:将每个子层的输入直接加到输出上,制止梯度消失问题。 层归一化:对每个子层的输出举行归一化处理,稳定训练过程。
2.3 解码器(Decoder)
解码器同样由多个相同的层组成,每层包含三个子层: 掩码多头自注意力层(Masked Multi-Head Self-Attention Layer) 作用:处明白码器的输入序列,防止解码器在生成过程中看到未来的信息(即 “掩码” 操作)。 机制:与编码器的多头自注意力层类似,但在计算注意力时,对当前词之后的词施加掩码(Mask),使其注意力权重为零。 公式:
MaskedAttention ( Q , K , V ) = softmax ( Q K T d k + mask ) V \text{MaskedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + \text{mask}\right)V MaskedAttention(Q,K,V)=softmax(dk QKT+mask)V 编码器 - 解码器注意力层(Encoder-Decoder Attention Layer) 作用:将解码器的输入与编码器的输出举行交互,获取上下文信息。 机制:解码器的查询(Query)与编码器的键(Key)和值(Value)举行注意力计算,从而将编码器的上下文信息融入解码器的输出。 前馈网络层 作用:与编码器中的前馈网络类似,进一步处理信息。
解码器的输出颠末线性层和 softmax 函数,生成终极的猜测结果。
2.4 输入嵌入与位置编码
输入嵌入(Input Embedding) 作用:将输入序列中的每个词转换为固定维度的向量表现。 机制:通过查找表(Lookup Table)将每个词映射到一个预训练的嵌入向量。 位置编码(Positional Encoding) 作用:为模型提供序列中每个词的位置信息,因为 Transformer 不依赖于序列的顺序。 机制:位置编码是一个固定长度的向量,与输入嵌入相加,为模型提供位置信息。 公式:
PE ( p o s , 2 i ) = sin ( pos 1000 0 2 i / d model ) \text{PE}(pos, 2i) = \sin\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i)=sin(100002i/dmodelpos)
PE ( p o s , 2 i + 1 ) = cos ( pos 1000 0 2 i / d model ) \text{PE}(pos, 2i+1) = \cos\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i+1)=cos(100002i/dmodelpos)
此中,pos 是词的位置,i 是维度, d model d_{\text{model}} dmodel是模型的维度。
三、Transformer 的关键特性