IT评测·应用市场-qidao123.com
标题:
Attention计算中的各个矩阵的维度都是怎样一步步变革的?
[打印本页]
作者:
圆咕噜咕噜
时间:
2025-1-13 22:27
标题:
Attention计算中的各个矩阵的维度都是怎样一步步变革的?
在Transformer模型中,各个矩阵的维度变革是一个关键的过程,涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变革过程:
输入阶段
输入序列
:假设输入序列的长度为seq_len,每个单词或标记通过词嵌入(word embedding)转换为一个固定维度的向量,维度为d_model。因此,输入矩阵的维度为(seq_len, d_model)。
位置编码
:位置编码(Positional Encoding)通常与词嵌入向量相加,以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同,即(seq_len, d_model)。
编码器(Encoder)阶段
多头留意力机制(Multi-Head Attention)
:
查询(Q)、键(K)、值(V)矩阵
:输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k(通常d_k = d_model / num_heads),则Q、K、V的维度为(seq_len, d_k)。
留意力计算
:Q与K的转置相乘,得到一个留意力得分矩阵,维度为(seq_len, seq_len)。颠末softmax处置惩罚后,再与V相乘,得到输出矩阵,维度为(seq_len, d_k)。
多头拼接
:将全部头的输出拼接或均匀,得到最终的输出矩阵,维度为(seq_len, d_model)。
前馈神经网络(Feed-Forward Network)
:
输入矩阵颠末两个线性变换和非线性激活函数,最终输出的维度保持为(seq_len, d_model)。
解码器(Decoder)阶段
掩码多头留意力机制(Masked Multi-Head Attention)
:
雷同于编码器中的多头留意力机制,但使用了掩码来防止解码器在天生时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)。
编码器-解码器留意力机制
:
解码器的查询(Q)与编码器的键(K)和值(V)进行留意力计算,输出矩阵的维度为(seq_len, d_model)。
输出阶段
线性层和Softmax
:
解码器的输出颠末一个线性层,将维度从(seq_len, d_model)转换为(seq_len, vocab_size),此中vocab_size是词汇表的巨细。
最后通过Softmax层,得到每个单词的概率分布,用于预测下一个单词。
这些维度变革确保了Transformer模型可以或许有效地处置惩罚序列数据,并在各个层之间传递和转换信息。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4