Self Attention
先看例子,下列句子是我们想要翻译的输入句子:
The animal didn’t cross the street because it was too tired
这个“it”在这个句子是指什么呢?它指的是street照旧这个animal呢?这对于人类来说是一个简朴的问题,但是对于算法则不是。
当模型处置惩罚这个单词“it”的时候,自留意力机制会答应“it”与“animal”创建联系。
随着模型处置惩罚输入序列的每个单词,自留意力会关注整个输入序列的所有单词,帮助模型对本单词更好地举行编码。
如果你熟悉RNN(循环神经网络),回忆一下它是如何维持隐藏层的。RNN会将它已经处置惩罚过的前面的所有单词/向量的表示与它正在处置惩罚的当前单词/向量联合起来。而自留意力机制会将所有相关单词的理解融入到我们正在处置惩罚的单词中
当我们在编码器#5(栈中最上层编码器)中编码“it”这个单词的时,留意力机制的部分会去关注“The Animal”,将它的表示的一部分编入“it”的编码中。