自留意力机制的核心公式如下:
[ Attention ( Q , K , V ) = softmax ( Q K T d k ) V ] [ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V ] [Attention(Q,K,V)=softmax(dk QKT)V]
此中, ( Q ) ( Q ) (Q)、 ( K ) ( K ) (K)、 ( V ) ( V ) (V) 分别表示查询、键和值矩阵, ( d k ) ( d_k ) (dk) 是键的维度。 2. 深层网络的训练与优化