深度学习 - 梯度降落优化方法

打印 上一主题 下一主题

主题 581|帖子 581|积分 1743

梯度降落的基本概念

梯度降落(Gradient Descent)是一种用于优化机器学习模型参数的算法,其目标是最小化损失函数,从而提高模型的预测精度。梯度降落的核心头脑是通过迭代地调解参数,沿着损失函数降落的方向前进,最终找到最优解。
生活中的配景例子:寻找山谷的最低点
想象你站在一个山谷中,眼睛被蒙住,只能用脚感受地面的坡度来找到山谷的最低点(即损失函数的最小值)。你每一步都想朝着坡度降落最快的方向走,直到你感觉不到坡度,也就是你到了最低点。这就好比在优化一个模型时,通过不断调解参数,使得模型的预测误差(损失函数)越来越小,最终找到最佳参数组合。
梯度降落的具体方法及其优化

1. 批量梯度降落(Batch Gradient Descent)

生活中的例子
你决定每次移动之前,都要先测量整个山谷的坡度,然后再决定移动的方向和步幅。虽然每一步的方向和步幅都很准确,但每次都要花许多时间来测量整个山谷的坡度。
公式
                                         θ                            :                            =                            θ                            −                            η                            ⋅                                       ∇                               θ                                      J                            (                            θ                            )                                  \theta := \theta - \eta \cdot \nabla_{\theta} J(\theta)                     θ:=θ−η⋅∇θ​J(θ)
此中:


  •                                         θ                                  \theta                     θ是模型参数
  •                                         η                                  \eta                     η是学习率
  •                                                    ∇                               θ                                      J                            (                            θ                            )                                  \nabla_{\theta} J(\theta)                     ∇θ​J(θ)是损失函数                                         J                            (                            θ                            )                                  J(\theta)                     J(θ)关于                                         θ                                  \theta                     θ的梯度
API
TensorFlow
  1. optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
复制代码
PyTorch
  1. optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
复制代码
批量梯度降落过程图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # 批量梯度下降
  10. def batch_gradient_descent(start, learning_rate, iterations):
  11.     x = start
  12.     path = [x]
  13.     for i in range(iterations):
  14.         grad = gradient(x)
  15.         x = x - learning_rate * grad
  16.         path.append(x)
  17.     return path
  18. # 参数
  19. start = 10
  20. learning_rate = 0.1
  21. iterations = 20
  22. # 运行梯度下降
  23. path = batch_gradient_descent(start, learning_rate, iterations)
  24. # 绘制图像
  25. x = np.linspace(-10, 10, 100)
  26. y = loss(x)
  27. plt.plot(x, y, label='Loss Function')
  28. plt.scatter(path, [loss(p) for p in path], color='red', label='Batch Gradient Descent Path')
  29. plt.xlabel('x')
  30. plt.ylabel('Loss')
  31. plt.legend()
  32. plt.title('Batch Gradient Descent')
  33. plt.show()
复制代码



  • 从图像可知,批量梯度降落每次使用整个训练集计算梯度并更新参数,适用于小规模数据集,收敛稳固,但计算开销大。
2. 随机梯度降落(Stochastic Gradient Descent, SGD)

生活中的例子
你决定每一步都只根据当前所在位置的坡度来移动。虽然这样可以快速决定下一步怎么走,但由于只考虑当前点,可能会导致路径不稳固,有时间会走过头。
公式
                                         θ                            :                            =                            θ                            −                            η                            ⋅                                       ∇                               θ                                      J                            (                            θ                            ;                                       x                                           (                                  i                                  )                                                 ,                                       y                                           (                                  i                                  )                                                 )                                  \theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; x^{(i)}, y^{(i)})                     θ:=θ−η⋅∇θ​J(θ;x(i),y(i))
此中                                    (                                   x                                       (                               i                               )                                            ,                                   y                                       (                               i                               )                                            )                              (x^{(i)}, y^{(i)})                  (x(i),y(i))是当前样本的数据
API
TensorFlowPyTorch 中的API与批量梯度降落相同,具体行为取决于数据的加载方式。比方在训练时可以一批数据包含一个样本。
随机梯度降落过程图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # 随机梯度下降
  10. def stochastic_gradient_descent(start, learning_rate, iterations):
  11.     x = start
  12.     path = [x]
  13.     for i in range(iterations):
  14.         grad = gradient(x)
  15.         x = x - learning_rate * grad * np.random.uniform(0.5, 1.5)  # 模拟随机样本的影响
  16.         path.append(x)
  17.     return path
  18. # 参数
  19. start = 10
  20. learning_rate = 0.1
  21. iterations = 20
  22. # 运行梯度下降
  23. path = stochastic_gradient_descent(start, learning_rate, iterations)
  24. # 绘制图像
  25. x = np.linspace(-10, 10, 100)
  26. y = loss(x)
  27. plt.plot(x, y, label='Loss Function')
  28. plt.scatter(path, [loss(p) for p in path], color='red', label='SGD Path')
  29. plt.xlabel('x')
  30. plt.ylabel('Loss')
  31. plt.legend()
  32. plt.title('Stochastic Gradient Descent')
  33. plt.show()
复制代码


  • 随机梯度降落每次使用一个样本计算梯度并更新参数,计算效率高,适用于大规模数据集,但收敛不稳固,容易出现抖动。
3. 小批量梯度降落(Mini-Batch Gradient Descent)

生活中的例子
你决定每次移动之前,只测量周围一小部门区域的坡度,然后根据这小部门区域的均匀坡度来决定方向和步幅。这样既不需要花太多时间测量整个山谷,也不会因为只看一个点而导致路径不稳固。
公式
                                         θ                            :                            =                            θ                            −                            η                            ⋅                                       ∇                               θ                                      J                            (                            θ                            ;                            B                            )                                  \theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; \mathcal{B})                     θ:=θ−η⋅∇θ​J(θ;B)
此中                                    B                              \mathcal{B}                  B是当前小批量的数据
API
TensorFlowPyTorch 中的API与批量梯度降落相同,但在数据加载时使用小批量。
小批量梯度降落过程图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # 小批量梯度下降
  10. def mini_batch_gradient_descent(start, learning_rate, iterations, batch_size=5):
  11.     x = start
  12.     path = [x]
  13.     for i in range(iterations):
  14.         grad = gradient(x)
  15.         x = x - learning_rate * grad * np.random.uniform(0.8, 1.2)  # 模拟小批量样本的影响
  16.         path.append(x)
  17.     return path
  18. # 参数
  19. start = 10
  20. learning_rate = 0.1
  21. iterations = 20
  22. # 运行梯度下降
  23. path = mini_batch_gradient_descent(start, learning_rate, iterations)
  24. # 绘制图像
  25. x = np.linspace(-10, 10, 100)
  26. y = loss(x)
  27. plt.plot(x, y, label='Loss Function')
  28. plt.scatter(path, [loss(p) for p in path], color='red', label='Mini-Batch Gradient Descent Path')
  29. plt.xlabel('x')
  30. plt.ylabel('Loss')
  31. plt.legend()
  32. plt.title('Mini-Batch Gradient Descent')
  33. plt.show()
复制代码



  • 小批量梯度降落每次使用一个小批量样本计算梯度并更新参数,平衡了计算效率和稳固性。
4. 动量法(Momentum)

生活中的例子
你在移动时,不仅考虑当前的坡度,还考虑之前几步的移动方向,就像带着惯性一样。如果前几步不停往一个方向走,那么你会倾向于继续往这个方向走,减少往返震荡。
公式
                                         v                            :                            =                            β                            v                            +                            (                            1                            −                            β                            )                                       ∇                               θ                                      J                            (                            θ                            )                                  v := \beta v + (1 - \beta) \nabla_{\theta} J(\theta)                     v:=βv+(1−β)∇θ​J(θ)
                                         θ                            :                            =                            θ                            −                            η                            v                                  \theta := \theta - \eta v                     θ:=θ−ηv
此中:


  •                                         v                                  v                     v是动量项
  •                                         β                                  \beta                     β是动量系数(通常靠近1,如0.9)
API
TensorFlow
  1. optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9)
复制代码
PyTorch
  1. optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
复制代码
动量法图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # 动量法
  10. def momentum_gradient_descent(start, learning_rate, iterations, beta=0.9):
  11.     x = start
  12.     v = 0
  13.     path = [x]
  14.     for i in range(iterations):
  15.         grad = gradient(x)
  16.         v = beta * v + (1 - beta) * grad
  17.         x = x - learning_rate * v
  18.         path.append(x)
  19.     return path
  20. # 参数
  21. start = 10
  22. learning_rate = 0.1
  23. iterations = 20
  24. # 运行梯度下降
  25. path = momentum_gradient_descent(start, learning_rate, iterations)
  26. # 绘制图像
  27. x = np.linspace(-10, 10, 100)
  28. y = loss(x)
  29. plt.plot(x, y, label='Loss Function')
  30. plt.scatter(path, [loss(p) for p in path], color='red', label='Momentum Path')
  31. plt.xlabel('x')
  32. plt.ylabel('Loss')
  33. plt.legend()
  34. plt.title('Momentum Gradient Descent')
  35. plt.show()
复制代码



  • 动量法通过引入动量项加速收敛并减少震荡,适用于深度神经网络训练。
5. RMSProp

生活中的例子
你在移动时,会根据最近一段时间内每一步的坡度环境,动态调解步幅。比如,当坡度变革剧烈时,你会迈小步,当坡度变革平缓时,你会迈大步。
公式
                                         s                            :                            =                            β                            s                            +                            (                            1                            −                            β                            )                            (                                       ∇                               θ                                      J                            (                            θ                            )                                       )                               2                                            s := \beta s + (1 - \beta) (\nabla_{\theta} J(\theta))^2                     s:=βs+(1−β)(∇θ​J(θ))2
                                         θ                            :                            =                            θ                            −                                       η                                                        s                                     +                                     ϵ                                                                        ∇                               θ                                      J                            (                            θ                            )                                  \theta := \theta - \frac{\eta}{\sqrt{s + \epsilon}} \nabla_{\theta} J(\theta)                     θ:=θ−s+ϵ                    ​η​∇θ​J(θ)
此中:


  •                                         s                                  s                     s是梯度平方的加权均匀值
  •                                         ϵ                                  \epsilon                     ϵ是一个小常数,防止除零错误
API
TensorFlow
  1. optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.001)
复制代码
PyTorch
  1. optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001)
复制代码
RMSProp图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # RMSProp
  10. def rmsprop_gradient_descent(start, learning_rate, iterations, beta=0.9, epsilon=1e-8):
  11.     x = start
  12.     s = 0
  13.     path = [x]
  14.     for i in range(iterations):
  15.         grad = gradient(x)
  16.         s = beta * s + (1 - beta) * grad**2
  17.         x = x - learning_rate * grad / (np.sqrt(s) + epsilon)
  18.         path.append(x)
  19.     return path
  20. # 参数
  21. start = 10
  22. learning_rate = 0.1
  23. iterations = 20
  24. # 运行梯度下降
  25. path = rmsprop_gradient_descent(start, learning_rate, iterations)
  26. # 绘制图像
  27. x = np.linspace(-10, 10, 100)
  28. y = loss(x)
  29. plt.plot(x, y, label='Loss Function')
  30. plt.scatter(path, [loss(p) for p in path], color='red', label='RMSProp Path')
  31. plt.xlabel('x')
  32. plt.ylabel('Loss')
  33. plt.legend()
  34. plt.title('RMSProp Gradient Descent')
  35. plt.show()
复制代码



  • RMSProp动态调解学习率,通过对梯度平方的加权均匀值进行调解,适用于处理非平稳目标。
6. Adam(Adaptive Moment Estimation)

生活中的例子
你在移动时,联合动量法和RMSProp的优点,不仅考虑之前的移动方向(动量),还根据最近一段时间内的坡度变革环境(调解步幅),从而使移动更加平稳和高效。
公式
                                         m                            :                            =                                       β                               1                                      m                            +                            (                            1                            −                                       β                               1                                      )                                       ∇                               θ                                      J                            (                            θ                            )                                  m := \beta_1 m + (1 - \beta_1) \nabla_{\theta} J(\theta)                     m:=β1​m+(1−β1​)∇θ​J(θ)
                                         v                            :                            =                                       β                               2                                      v                            +                            (                            1                            −                                       β                               2                                      )                            (                                       ∇                               θ                                      J                            (                            θ                            )                                       )                               2                                            v := \beta_2 v + (1 - \beta_2) (\nabla_{\theta} J(\theta))^2                     v:=β2​v+(1−β2​)(∇θ​J(θ))2
                                                    m                               ^                                      :                            =                                       m                                           1                                  −                                               β                                     1                                     t                                                                   \hat{m} := \frac{m}{1 - \beta_1^t}                     m^:=1−β1t​m​
                                                    v                               ^                                      :                            =                                       v                                           1                                  −                                               β                                     2                                     t                                                                   \hat{v} := \frac{v}{1 - \beta_2^t}                     v^:=1−β2t​v​
                                         θ                            :                            =                            θ                            −                            η                                                   m                                  ^                                                                                 v                                        ^                                                           +                                  ϵ                                                       \theta := \theta - \eta \frac{\hat{m}}{\sqrt{\hat{v}} + \epsilon}                     θ:=θ−ηv^                    ​+ϵm^​
此中:


  •                                         m                                  m                     m和                                         v                                  v                     v分别是梯度的一阶和二阶动量
  •                                                    β                               1                                            \beta_1                     β1​和                                                    β                               2                                            \beta_2                     β2​是动量系数(通常分别取0.9和0.999)
  •                                                    m                               ^                                            \hat{m}                     m^和                                                    v                               ^                                            \hat{v}                     v^是毛病校正后的动量项
  •                                         t                                  t                     t是时间步
API
TensorFlow
  1. optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
复制代码
PyTorch
  1. optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
复制代码
Adam图像python代码
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 损失函数: y = x^2
  4. def loss(x):
  5.     return x ** 2
  6. # 损失函数的梯度: dy/dx = 2x
  7. def gradient(x):
  8.     return 2 * x
  9. # Adam
  10. def adam_gradient_descent(start, learning_rate, iterations, beta1=0.9, beta2=0.999, epsilon=1e-8):
  11.     x = start
  12.     m = 0
  13.     v = 0
  14.     path = [x]
  15.     for t in range(1, iterations + 1):
  16.         grad = gradient(x)
  17.         m = beta1 * m + (1 - beta1) * grad
  18.         v = beta2 * v + (1 - beta2) * grad**2
  19.         m_hat = m / (1 - beta1**t)
  20.         v_hat = v / (1 - beta2**t)
  21.         x = x - learning_rate * m_hat / (np.sqrt(v_hat) + epsilon)
  22.         path.append(x)
  23.     return path
  24. # 参数
  25. start = 10
  26. learning_rate = 0.1
  27. iterations = 20
  28. # 运行梯度下降
  29. path = adam_gradient_descent(start, learning_rate, iterations)
  30. # 绘制图像
  31. x = np.linspace(-10, 10, 100)
  32. y = loss(x)
  33. plt.plot(x, y, label='Loss Function')
  34. plt.scatter(path, [loss(p) for p in path], color='red', label='Adam Path')
  35. plt.xlabel('x')
  36. plt.ylabel('Loss')
  37. plt.legend()
  38. plt.title('Adam Gradient Descent')
  39. plt.show()
复制代码



  • Adam联合动量法和RMSProp的优点,自适应调解学习率,适用于各种优化问题。
综合应用示例

假设我们在使用TensorFlow和PyTorch训练一个简单的神经网络,以下是如何应用这些优化方法的示例代码。
TensorFlow 示例
  1. import tensorflow as tf# 定义模型model = tf.keras.Sequential([    tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),    tf.keras.layers.Dense(10, activation='softmax')])# 编译模型并选择优化器optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
  2. model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])# 预备数据(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()x_train, x_test = x_train / 255.0, x_test / 255.0# 训练模型model.fit(x_train, y_train, epochs=10, batch_size=32)
复制代码
PyTorch 示例
  1. import torchimport torch.nn as nnimport torch.optim as optimfrom torchvision import datasets, transformsfrom torch.utils.data import DataLoader# 定义模型class SimpleNN(nn.Module):    def __init__(self):        super(SimpleNN, self).__init__()        self.fc1 = nn.Linear(784, 128)        self.fc2 = nn.Linear(128, 10)    def forward(self, x):        x = torch.relu(self.fc1(x))        x = self.fc2(x)        return xmodel = SimpleNN()# 选择优化器optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
  2. criterion = nn.CrossEntropyLoss()# 预备数据transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)# 训练模型for epoch in range(10):    for batch in train_loader:        x_train, y_train = batch        x_train = x_train.view(x_train.size(0), -1)  # Flatten the images        optimizer.zero_grad()        outputs = model(x_train)        loss = criterion(outputs, y_train)        loss.backward()        optimizer.step()
复制代码
综合对比

优化方法优点缺点可能出现的问题适用场景批量梯度降落(Batch GD)收敛稳固,适用于小规模数据集每次迭代计算开销大,速度慢难以处理大规模数据,容易陷入局部最优小规模数据集,适合精确收敛随机梯度降落(SGD)计算效率高,适用于大规模数据集路径不稳固,波动较大收敛路径抖动大,不稳固大规模数据集,在线学习,快速迭代小批量梯度降落(Mini-Batch GD)平衡了计算效率和收敛稳固性需要选择合适的小批量大小,计算量仍然较大小批量大小选择不当可能影响收敛结果大规模数据集,适合批量计算动量法(Momentum)加速收敛,减少震荡需要调解动量系数,增长了参数选择的复杂性动量系数选择不当可能导致过冲深度神经网络训练,加速收敛RMSProp动态调解学习率,适应非平稳目标需要调解参数β和ε,参数选择复杂参数选择不当可能影响收敛结果非平稳目标,复杂优化问题Adam联合动量法和RMSProp优点,自适应调解学习率,收敛快需要调解多个参数,计算复杂性高参数选择不当可能影响收敛结果各种优化问题,特别是深度学习模型训练 更多问题咨询

CosAI


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

数据人与超自然意识

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表