transformer 规范化层

打印 上一主题 下一主题

主题 1802|帖子 1802|积分 5406

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
目标


  • 了解规范化层的作用
  • 掌握规范化层的实现过程
作用
所有的深层网络模子都需要标准网络层, 因为随着网络层数目标增加, 通过多层的计算后参数大概出现过大大概过小的情况, 这样大概导致在学习过程出现异常, 模子大概收敛比较慢,因此都会在一定的层数后接规范化层进行数值的规范化,使其特性数值在合理的范围内
代码实现

  1. import torch.nn as nn
  2. import torch
  3. class LayerNorm(nn.Module):
  4.     def __init__(self, features, eps=1e-6):
  5.         """初始化函数有两个参数
  6.         :param features: 代表词嵌入的维度
  7.         :param eps: 他是一个足够小的数, 在规范化公式的分母中出现, 防止分母为0, 默认为1e-6
  8.         """
  9.         super(LayerNorm, self).__init__()
  10.         # 根据 features的形状初始化两个参数张量a2. b2, 第一个初始化唯1张量, 也就是里面的元素都是1
  11.         # 第二个初始化为0张量, 也就是里面的元素都是0, 这两个张量就是规范化的参数
  12.         # 因为直接对上一层得到的结果做规范化, 又不能改变对目标的表征, 最后使用 nn.Parameter 封装, 代表他们是参数, 不需要训练
  13.         self.a2 = nn.Parameter(torch.ones(features))
  14.         self.b2 = nn.Parameter(torch.zeros(features))
  15.         self.eps = eps
  16.     def forward(self, x):
  17.         """减均值除方差
  18.         :param x: 输入参数x代表来自上一层的输出
  19.         """
  20.         # 在函数中, 首先对输入变量x求其最后一个维度的均值(x.mean), 并保持输出维度与输入维度一致(keepdim=True)
  21.         # 接着再求最后一个维度的标准差(x.std), 然后就是根据规范化公式, 用x减去均值, 再除以规范化的标准差, 最后再乘以缩放参数a2, 再加上b2
  22.         # *代表同刑点乘, 即对应位置进行乘法操作, 加上位移参数
  23.         """
  24.         请问规范化层中这段代码"self.a2 * (x - mean) / (std + self.eps) + self.b2", self.a2 为全1的对象乘后面的值不会发生任何值的改变,, 以及最后加上self.b2, 那么在transformer规范化层中这样做的意义是什么?
  25.         
  26.         在Transformer的规范化层中,`self.a2` 和 `self.b2` 的引入确实看似多余,但实际上它们具有重要的意义。以下是具体解释:
  27.         1. **`self.a2` 的作用**  
  28.            - 虽然初始化时 `self.a2` 是全1的对象,但在训练过程中,它是一个可学习的参数。这意味着模型可以通过反向传播调整它的值,从而对规范化后的数据进行缩放(scaling)。  
  29.            - 这种缩放操作允许模型灵活地控制每个特征的权重,使得规范化后的数据能够更好地适应下游任务的需求。
  30.         
  31.         2. **`self.b2` 的作用**  
  32.            - 类似地,`self.b2` 初始化为全0的对象,但它也是一个可学习的参数。通过训练,它可以对规范化后的数据进行位移(shifting),从而调整每个特征的偏置。  
  33.            - 这种位移操作使得模型能够在规范化的基础上进一步微调数据分布,以适应特定任务的需求。
  34.         
  35.         3. **为什么要引入这两个参数?**  
  36.            - 规范化操作(如 `(x - mean) / (std + self.eps)`)会改变输入数据的分布,使其均值为0,标准差为1。然而,这种分布可能并不总是适合后续的计算或任务需求。  
  37.            - 通过引入 `self.a2` 和 `self.b2`,模型可以在规范化后重新调整数据的分布,使其更符合任务的需求。这相当于给模型提供了一种灵活性,使其能够更好地学习和表达复杂的模式。
  38.         
  39.         4. **总结**  
  40.            - 在Transformer中,`LayerNorm` 的设计目的是为了稳定训练过程,减少梯度消失或爆炸的问题。  
  41.            - `self.a2` 和 `self.b2` 的引入则进一步增强了模型的表达能力,使规范化后的数据分布更加灵活可控。即使在初始化阶段它们看似不起作用,但随着训练的进行,它们会逐渐调整到最优值,从而提升模型性能。
  42.         
  43.         因此,尽管在初始化阶段 `self.a2` 和 `self.b2` 的作用不明显,但它们的存在对于模型的最终表现至关重要。
  44.         """
  45.         print("x: ", x)
  46.         mean = x.mean(-1, keepdim=True)
  47.         std = x.std(-1, keepdim=True)
  48.         # std + self.eps 防止 std标准差为0
  49.         print("self.a2: ", self.a2)
  50.         print("mean: ", mean)
  51.         print("x - mean: ", x - mean)
  52.         print("self.a2 * (x - mean): ", self.a2 * (x - mean))
  53.         print("std + self.eps: ", std + self.eps)
  54.         print("self.a2 * (x - mean) / (std + self.eps): ", self.a2 * (x - mean) / (std + self.eps))
  55.         return self.a2 * (x - mean) / (std + self.eps) + self.b2
  56. features = d_model = 3
  57. eps = 1e-6
  58. x = torch.randn(1, 3, 3)
  59. layer = LayerNorm(features, eps)
  60. y = layer(x)
  61. print(y)
  62. print(y.size())
  63. """output:
  64. tensor([[[-0.0949, -1.4544,  1.4923,  ..., -0.8013,  0.8509, -2.2505],
  65.          [-2.5870,  0.2960, -2.1403,  ...,  0.1612, -1.3862, -1.5998],
  66.          [-0.1957, -0.1322, -2.3934,  ...,  0.4920, -0.2850, -0.6868],
  67.          ...,
  68.          [-0.6752,  0.5418, -1.5606,  ..., -2.1540, -0.4754,  0.1213],
  69.          [ 0.3079,  1.2774, -0.9723,  ..., -0.3016, -1.5236, -1.1208],
  70.          [-0.0062, -0.3422, -0.8661,  ...,  0.0146, -0.5056,  0.7262]]],
  71.        grad_fn=<AddBackward0>)
  72. torch.Size([1, 512, 512])
  73. """
复制代码
nn.Parameter 说明

输入输出类型


  • 输入:恣意 torch.Tensor(通常是需要训练的权重或偏置)。
  • 输出:包装后的 Parameter 类型张量(继续自 Tensor,但会被主动注册到模子的参数列表中)。
基本作用


  • 功能:将张量标记为模子的 可训练参数,优化器(如 Adam)会更新这些参数。
  • 用途:定义自定义层的权重(如 nn.Linear 中的 weight 和 bias)。
底层原理


  • nn.Parameter 是 Tensor 的子类,通过 requires_grad=True 主动启用梯度计算。
  • 当添加到 nn.Module 时,会被主动加入 model.parameters() 列表。
代码示例
  1. import torch
  2. import torch.nn as nn
  3. class CustomLayer(nn.Module):
  4.     def __init__(self):
  5.         super().__init__()
  6.         # 定义一个可训练参数(标量)
  7.         self.weight = nn.Parameter(torch.randn(1))
  8.    
  9.     def forward(self, x):
  10.         return x * self.weight  # 前向传播时使用参数
  11. model = CustomLayer()
  12. print(list(model.parameters()))  # 查看模型参数(包含weight)
复制代码
torch.Tensor.mean 说明

输入输出类型


  • 输入:恣意形状的 Tensor,可指定维度 dim。
  • 输出:沿指定维度求均值后的 Tensor(若 dim=None 则返回标量)。
基本作用


  • 功能:计算张量的 算术平均值,支持沿特定维度操作。
  • 用途:数据归一化、损失函数计算(如 MSE 的均值)。
底层原理


  • 数学公式:( \text{mean}(x) = \frac{1}{n} \sum_{i=1}^n x_i )
  • 底层调用 CUDA 或 CPU 的并行化归约操作(如 thrust::reduce)。
代码示例
  1. x = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
  2. # 全局均值
  3. print(x.mean())  # tensor(2.5)
  4. # 沿维度0(列方向)求均值
  5. print(x.mean(dim=0))  # tensor([2., 3.])
  6. # 保持维度(输出形状为[1, 2])
  7. print(x.mean(dim=0, keepdim=True))  # tensor([[2., 3.]])
复制代码
torch.Tensor.std

输入输出类型


  • 输入:恣意形状的 Tensor,可指定维度 dim 和是否无偏估计(unbiased)。
  • 输出:沿指定维度求标准差后的 Tensor(若 dim=None 则返回标量)。
基本作用


  • 功能:计算张量的 标准差,权衡数据离散程度。
  • 用途:数据标准化(如 BatchNorm)、统计分析。
底层原理


  • 数学公式(无偏估计):
                                                       std                                  (                                  x                                  )                                  =                                                                            1                                                           n                                              −                                              1                                                                                    ∑                                                           i                                              =                                              1                                                          n                                                      (                                                       x                                           i                                                      −                                        mean                                        (                                        x                                        )                                                       )                                           2                                                                                 \text{std}(x) = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \text{mean}(x))^2}                           std(x)=n−11​i=1∑n​(xi​−mean(x))2               ​
  • 底层通过两步实现:先计算均值,再计算平方差的均值。
代码示例
  1. x = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
  2. # 全局标准差(无偏估计)
  3. print(x.std())  # tensor(1.2909944)
  4. # 沿维度1(行方向)求标准差
  5. print(x.std(dim=1))  # tensor([0.7071, 0.7071])
  6. # 有偏估计(分母为n)
  7. print(x.std(dim=1, unbiased=False))  # tensor([0.5, 0.5])
复制代码
三者的对比总结

函数/方法作用常用场景关键参数nn.Parameter定义可训练参数自定义模子层无tensor.mean()计算均值损失函数、数据归一化dim, keepdimtensor.std()计算标准差BatchNorm、数据标准化dim, unbiased 常见标题

Q:nn.Parameter 和普通 Tensor 的区别?
A:Parameter 会被主动注册到模子参数列表(model.parameters()),普通 Tensor 不会。
Q:unbiased=False 在 std() 中何时使用?
A:当数据是全体样本(非抽样)时用有偏估计(分母为 n),默认无偏估计(分母 n-1)更通用。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

西河刘卡车医

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表