【深度学习】Transformer 的常见的位置编码有哪些

莱莱论坛元老 | 2025-2-25 00:04:31 | 显示全部楼层 | 阅读模式

楼主

主题 1026|帖子 1026|积分 3078

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

Transformer 位置编码（Positional Encoding）主要用于弥补 自注意力机制（Self-Attention） 对位置信息的忽略，常见的方案有以下几种：

1. 绝对位置编码（Absolute Positional Encoding）

绝对位置编码是最早在原始 Transformer 论文（《Attention Is All You Need》）中提出的方式，它在每个 token 位置参加一个固定的向量，用于表示其位置信息。
(1) 三角函数编码（Sinusoidal Positional Encoding）

公式：
P E ( p o s , 2 i ) = sin ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i)=sin(100002i/dmodelpos)
P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i+1)=cos(100002i/dmodelpos)
其中：