Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm

[复制链接]
发表于 2024-9-18 16:48:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
Layer Normalization (LayerNorm)Root Mean Square Layer Normalization (RMSNorm)
原理对特性张量按照某一维度或某几个维度举行0均值,1方差的归一化 操作
LayerNorm 是一种尺度化方法,它盘算一个样本的均值和方差,然后利用这些来对样本举行归一化。这种方法是独立于批量大小的,使得模型更加稳固。
RMSNorm是对LayerNorm的一个改进,没有做re-center操作(移除了此中的均值项),可以看作LayerNorm在均值为0时的一个特例。论文通过实验证实,re-center操作不紧张。
RMSNorm 也是一种尺度化方法,但与 LayerNorm 不同,它不是利用整个样本的均值和方差,而是利用平方根的均值来归一化,这样做可以降低噪声的影响。
公式
公式解释这里的x可以理解为 张量中具体某一维度的全部元素,比如对于 shape 为 (2,2,4) 的张量 input,若指定归一化的操作为第三个维度,则会对第三个维度中的四个张量(2,2,1),各举行上述的一次盘算这里的 ai与Layer Norm中的 x 等价,作者认为这种模式在简化了Layer Norm的同时,可以在各个模型上淘汰约 7%∼64% 的盘算时间
 
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表