免费入驻
产品入驻解决方案入驻公司入驻案例入驻
登录 · 注册
- 只需一步，快速开始
- 账号登录
- 立即注册
- 找回密码
自动登录找回密码

密码立即注册

IT评测·应用市场-qidao123.com»论坛 › 物联网 › 物联网 › Attention计算中的各个矩阵的维度都是怎样一步步变革的 ...

Attention计算中的各个矩阵的维度都是怎样一步步变革的？ ...

圆咕噜咕噜论坛元老 | 2025-1-13 22:27:16 | 显示全部楼层 | 阅读模式

上一主题

下一主题

楼主

主题 1048|帖子 1048|积分 3144

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

在Transformer模型中，各个矩阵的维度变革是一个关键的过程，涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变革过程：
输入阶段

输入序列：假设输入序列的长度为seq_len，每个单词或标记通过词嵌入（word embedding）转换为一个固定维度的向量，维度为d_model。因此，输入矩阵的维度为(seq_len, d_model)。
位置编码：位置编码（Positional Encoding）通常与词嵌入向量相加，以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同，即(seq_len, d_model)。

编码器（Encoder）阶段

多头留意力机制（Multi-Head Attention）：
- 查询（Q）、键（K）、值（V）矩阵：输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k（通常d_k = d_model / num_heads），则Q、K、V的维度为(seq_len, d_k)。
- 留意力计算：Q与K的转置相乘，得到一个留意力得分矩阵，维度为(seq_len, seq_len)。颠末softmax处置惩罚后，再与V相乘，得到输出矩阵，维度为(seq_len, d_k)。
- 多头拼接：将全部头的输出拼接或均匀，得到最终的输出矩阵，维度为(seq_len, d_model)。
前馈神经网络（Feed-Forward Network）：
- 输入矩阵颠末两个线性变换和非线性激活函数，最终输出的维度保持为(seq_len, d_model)。

解码器（Decoder）阶段

掩码多头留意力机制（Masked Multi-Head Attention）：
- 雷同于编码器中的多头留意力机制，但使用了掩码来防止解码器在天生时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)。
编码器-解码器留意力机制：
- 解码器的查询（Q）与编码器的键（K）和值（V）进行留意力计算，输出矩阵的维度为(seq_len, d_model)。

输出阶段

线性层和Softmax：
- 解码器的输出颠末一个线性层，将维度从(seq_len, d_model)转换为(seq_len, vocab_size)，此中vocab_size是词汇表的巨细。
- 最后通过Softmax层，得到每个单词的概率分布，用于预测下一个单词。

这些维度变革确保了Transformer模型可以或许有效地处置惩罚序列数据，并在各个层之间传递和转换信息。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

回复

使用道具举报

0 个回复

倒序浏览

快速回复

微信订阅号

微信服务号

微信客服

小程序

H5

关于我们商务合作网站地图

快速回复 返回顶部 返回列表