人工智能-Llama 美洲鸵（大羊驼）改进之一：均方层归一化RMSNorm

道家人 发表于 2024-9-18 16:48:58

Llama 美洲鸵（大羊驼）改进之一：均方层归一化RMSNorm

Layer Normalization (LayerNorm)Root Mean Square Layer Normalization (RMSNorm)原理对特性张量按照某一维度或某几个维度举行0均值，1方差的归一化操作
LayerNorm 是一种尺度化方法，它盘算一个样本的均值和方差，然后利用这些来对样本举行归一化。这种方法是独立于批量大小的，使得模型更加稳固。RMSNorm是对LayerNorm的一个改进，没有做re-center操作（移除了此中的均值项），可以看作LayerNorm在均值为0时的一个特例。论文通过实验证实，re-center操作不紧张。
RMSNorm 也是一种尺度化方法，但与 LayerNorm 不同，它不是利用整个样本的均值和方差，而是利用平方根的均值来归一化，这样做可以降低噪声的影响。公式https://i-blog.csdnimg.cn/blog_migrate/1645079ff6e84c4b0a6a6ca501a1426b.pnghttps://i-blog.csdnimg.cn/blog_migrate/ea0fe6cf88b791625c318af8f3d72f4c.png公式解释这里的x可以理解为张量中具体某一维度的全部元素，比如对于 shape 为 (2,2,4) 的张量 input，若指定归一化的操作为第三个维度，则会对第三个维度中的四个张量（2,2,1），各举行上述的一次盘算这里的 ai与Layer Norm中的 x 等价，作者认为这种模式在简化了Layer Norm的同时，可以在各个模型上淘汰约 7%∼64% 的盘算时间

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

Llama 美洲鸵（大羊驼）改进之一：均方层归一化RMSNorm