从零开始实现大语言模型(七):多头注意力机制

打印 上一主题 下一主题

主题 333|帖子 333|积分 999

1. 前言

前文所述神经网络模块CausalAttention也被称为单头注意力模块(single-head attention)。将向量序列 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

星球的眼睛

高级会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表