在变更器大放异彩之前,自然语言处理(NLP)的常用方法是递归神经网络(RNN)。RNN专为处理序列或时间序列数据而计划。它们会对隐藏状态进行监控,以记住序列中先前步骤的比特--这对于语言建模、语音识别和情绪分析等工作来说,是一项非常方便的功能。RNN一次处理序列中的一个片断,根据当前输入和之前处理的内容更新隐藏状态--这就是所谓的递归。但在处理长序列时,它们碰到了一个停滞,即梯度消失或爆炸问题。这使得他们很难跟踪数据中的长期关系。
转换器的出现,完全颠覆了这一脚本。变更器并不采用RN 的循规蹈矩方式,而是以并行方式轻松处理数据,并利用留意力机制来跟踪输入序列中不同比特之间的关系,无论它们被放置在何处。架构蓝图中的这一变化让变更器可以轻松处理长短序列。它还避免了梯度问题。此外,它们的并行处理能力还能很好地与图形处理器(GPU graphics processing units)或张量处理单元(TPU tensor processing units)等复杂的芯片架构相匹配。
Ashish Vaswani和他在谷歌的研究人员创建了Transformer,并在2017年发表的开创性论文《Attention Is All You Need》中公布了焦点架构。