论文阅读：Attention is All you Need

登录 · 发表于 2026-1-13 22:35:54

Abstract

<hr> 贡献：

提出了Transformer，完全基于注意力机制，摒弃了循环和卷积网络。
效果：

本模子在质量上优于现有模子，同时具有更高的并行性，而且显着镌汰了训练时间。
1. Introduction

<hr>

long short-term memory（LSTM）——是非期影象网络
gated recurrent neural networks——门控循环神经网络

循环模子通常沿着输入和输出序列的符号位置来分解盘算。通过将位置与盘算时间步调对齐，它们天生一系列隐蔽状态 ht，作为前一个隐蔽状态 ht−1 和位置 t 的输入的函数。
Transformer完全摒弃循环网络、完全依赖注意力机制来捕获输入和输出之间全局依赖关系的模子架构。
显着允许增长并行化。
2. Background

<hr> 镌汰序列盘算。

Extended Neural GPU
ByteNet
ConvS2S
在这些模子中，关联恣意两个输入或输出位置信号所需的利用次数随着位置之间的间隔而增长。

Self-attention，是一种通过关联同一序列中差别位置来盘算该序列体现的注意力机制。
End-to-end memory networks，基于一种循环注意力机制，而不是与序列对齐的循环网络。
Transformer是第一个完全依赖自注意力来盘算输入和输出体现的转换模子，没有使用与序列对齐的RNN或卷积网络。
3. Model Architecture

<hr> 编码器输入x，输出z；解码器输入z，输出y。
在每一步，模子都是自回归的，在天生下一步时，使用先宿世成的符号作为附加输入。

3.1 Encoder and Decoder Stacks

<hr> 编码器：

N=6，每个两层。
第一层，多头自注意力机制；
第二层，逐位置全毗连前馈网络。
残差毗连，层归一化，即：LayerNorm(x + Sublayer(x))。
维度dmodel=512d_{model} = 512dmodel=512。
解码器：

N=6，每个三层。
二三层同上。
第一层，掩码多头自注意力机制。
这种掩码机制联合输出嵌入偏移一个位置，确保位置 i 的猜测只能依赖于位置 i 之前已知的输出。
3.2 Attention

<hr> 注意力函数可以形貌为将查询（query）和一组键-值对（key-value pairs）映射到一个输出，此中查询、键、值和输出都是向量。
输出是根据值（value）的加权和盘算得到的，权重是通过查询（query）与相应键（key）之间的兼容性函数盘算得出的。
3.2.1 Scaled Dot-Product Attention——缩放点积注意力

<hr>

输入由维度为 dk 的查询和键以及维度为 dv 的值构成，盘算查询与全部键的点积，将每个点积除以 dk\sqrt{d_k}dk ，并应用 softmax 函数以得到值的权重。
在现实应用中，会同时对一组查询盘算注意力函数，使用矩阵盘算。
输出矩阵：
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk QKT)V

加性注意力
点积注意力

对于较大的 dk 值，假如没有缩放，点积的数值大概会变得很大，从而将 softmax 函数推入梯度极小的地区，以是缩放dk\sqrt{d_k}dk 。
为什么选择 dk\sqrt{d_k}d

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

论文阅读：Attention is All you Need

本帖子中包含更多资源

丝