Transformer 动画讲解：单头留意力和多头留意力

大连密封材料 · 2024-6-14 20:59:02

暑期实习基本结束了，校招即将开启。
不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。提前准备才是完全之策。
最近，我们又连续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。
总结链接如下：

Transformer的起源：Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer，它完全基于留意力机制，摒弃了循环和卷积操纵。

留意力机制是全部所需
正如论文标题所言“留意力机制是全部所需”，夸大了留意力机制是Transformer架构的焦点要素，就如同人的心脏一样，充当着发动机的作用。
那么单头留意力和多头留意力到底是什么？它们两者有哪些联系和区别？让我们一起跟着动画来解读吧。

单头留意力

通过天生查询、键和值向量，计算并归一化留意力分数，终极对值向量进行加权求和，从而得到输入序列中每个位置的加权表示。

单头留意力机制的工作流程如下：

单头留意力工作流程
多头留意力：

通过将输入的查询、键和值矩阵分割成多个头，并在每个头中独立计算留意力，再将这些头的输出拼接并线性变换，从而实现在不同表示子空间中同时捕获和整合多种交互信息，提拔模型的表达本事。
多头留意力机制工作流程如下：

多头留意力工作流程
两者的联系和区别

两者在基本原理和目的上是相似的，但在留意力头的数量、信息捕捉与表达本事、计算复杂度与训练难度以及输出结果等方面存在显著的差异。
这些差异使得多头留意力在处理复杂任务时通常具有更好的性能。
两者的联系

两者的区别

单头留意力：只能关注一个方面，信息捕捉本事有限。
多头留意力：通过多个头的并行处理，可以或许捕捉到更多样化的特征，进步了模型的表达本事和泛化性能。这种机制使得多头留意力可以或许关注到句子更多层面的信息，例如稀有词、多义词、反义词等。

单头留意力：计算复杂度相对较低，训练也较为简单。
多头留意力：虽然增长了计算复杂度，但通常可以通过并行计算来优化。同时，它也需要更多的训练数据和计算资源来优化模型。然而，这些额外的投入通常可以或许带来模型性能的显著提拔。

单头留意力和多头留意力

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复