从零开始实现大语言模型（七）：多头注意力机制

星球的眼睛高级会员 | 2024-7-29 04:22:03 | 显示全部楼层 | 阅读模式

楼主

主题 209|帖子 209|积分 627

1. 前言

前文所述神经网络模块CausalAttention也被称为单头注意力模块(single-head attention)。将向量序列 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

使用道具举报