在2017年Google的研究团队在2017年发表的论文《Attention Is All You Need》初次提到Transformer。其背景主要是在于其时自然语言处理(NLP)领域对于更高效、更强盛的模型的需求。在这篇论文发表之前,大多数序列转导模型(比方,用于机器翻译的模型)都依赖于循环神经网络(RNNs)或卷积神经网络(CNNs),这些模型在处理长距离依赖时存在一定的局限性,而且盘算效率不高。Transformer的提出不但在技术上带来了创新,也在多个领域产生了深远的影响,成为了现代人工智能和深度学习的一个重要里程碑。
2.2.1 Transformer通俗表明