呆板学习--损失函数

打印 上一主题 下一主题

主题 833|帖子 833|积分 2499

损失函数(Loss Function),也称为代价函数(Cost Function)或误差函数(Error Function),是呆板学习和统计学中的一个重要概念。它用于量化模子猜测值与真实值之间的差异。损失函数的值越小,表示模子的猜测越正确。

损失函数的定义

损失函数根据具体的任务和目标会有所不同。常见的损失函数包括:

  • 均方误差(Mean Squared Error, MSE)
    适用于回归问题,计算猜测值与真实值之间的平方差的平均值。
                                                  M                               S                               E                                      {MSE}                        MSE =                                                          1                                  n                                                      ∑                                               i                                     =                                     1                                              n                                          (                                           y                                  i                                          −                                                        y                                     ^                                              i                                                      )                                  2                                                 \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2                        n1​∑i=1n​(yi​−y^​i​)2
    其中,                                             (                                           y                                  i                                          )                                      ( y_i )                        (yi​)是真实值,                                             (                                                        y                                     ^                                              i                                          )                                      ( \hat{y}_i)                        (y^​i​)是猜测值,                                             (                               n                               )                                      ( n )                        (n) 是样本数量。
  • 均方根误差(Root Mean Squared Error, RMSE)
    MSE 的平方根,用于回归问题,更直观地反映误差的尺度。
                                                   RMSE                                      \ \text{RMSE}                         RMSE =                                                                                     1                                        n                                                                ∑                                                       i                                           =                                           1                                                      n                                                  (                                                   y                                        i                                                  −                                                                  y                                           ^                                                      i                                                                )                                        2                                                                          \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}                        n1​∑i=1n​(yi​−y^​i​)2              ​
  • 平均绝对误差(Mean Absolute Error, MAE)
    计算猜测值与真实值之间绝对差的平均值。
                                                  MAE                               =                                           1                                  n                                                      ∑                                               i                                     =                                     1                                              n                                          ∣                                           y                                  i                                          −                                                        y                                     ^                                              i                                          ∣                                      \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|                        MAE=n1​∑i=1n​∣yi​−y^​i​∣
  • 交织熵损失(Cross-Entropy Loss)
    适用于分类问题,特别是二分类和多分类问题。
    二分类交织熵损失:
                                                  Binary Cross-Entropy                               =                               −                                           1                                  n                                                      ∑                                               i                                     =                                     1                                              n                                          [                                           y                                  i                                          log                               ⁡                               (                                                        y                                     ^                                              i                                          )                               +                               (                               1                               −                                           y                                  i                                          )                               log                               ⁡                               (                               1                               −                                                        y                                     ^                                              i                                          )                               ]                                      \text{Binary Cross-Entropy} = - \frac{1}{n} \sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]                        Binary Cross-Entropy=−n1​∑i=1n​[yi​log(y^​i​)+(1−yi​)log(1−y^​i​)]
    多分类交织熵损失:
                                                  Categorical Cross-Entropy                               =                               −                                           1                                  n                                                      ∑                                               i                                     =                                     1                                              n                                                      ∑                                               c                                     =                                     1                                              C                                                      y                                               i                                     ,                                     c                                                      log                               ⁡                               (                                                        y                                     ^                                                           i                                     ,                                     c                                                      )                                      \text{Categorical Cross-Entropy} = - \frac{1}{n} \sum_{i=1}^{n} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c})                        Categorical Cross-Entropy=−n1​∑i=1n​∑c=1C​yi,c​log(y^​i,c​)
    其中,                                             (                               C                               )                                      (C)                        (C)是类别数,((                                                         y                                               i                                     ,                                     c                                                             y_{i,c}                        yi,c​) 是样本 ( i ) 在类别 ( c ) 的真实标签(通常为0或1),                                             (                                                        y                                     ^                                                           i                                     ,                                     c                                                      )                                      ( \hat{y}_{i,c} )                        (y^​i,c​) 是猜测概率。
如何定义合理的损失函数

定义合理的损失函数必要思量以下几个方面:

  • 任务目标:根据具体任务选择合适的损失函数。例如,回归任务通常使用MSE或MAE,分类任务则使用交织熵损失
  • 误差特性:思量误差的性质和分布。MSE 对异常值(outliers)较为敏感,由于平方误差会放大大误差值的影响,而MAE 对异常值较为鲁棒。
  • 模子的可解释性:选择容易解释和调试的损失函数。MAE 的物理意义更容易理解,由于它直接反映了平均猜测误差的大小。
  • 优化难度:选择优化过程中梯度计算和收敛性较好的损失函数。例如,MSE 的梯度是线性的,优化相对简单,而有些复杂损失函数可能导致优化过程中的梯度不稳固。
  • 应用场景:根据具体应用场景选择损失函数。例如,在推荐系统中,可以使用带权重的损失函数,来更关注某些重要用户或物品的猜测正确性。
举例说明

例子1:房价猜测(回归问题)
假设我们在做房价猜测,可以选择MSE作为损失函数:
                                    MSE                         =                                   1                            n                                            ∑                                       i                               =                               1                                      n                                  (                                   y                            i                                  −                                              y                               ^                                      i                                            )                            2                                       \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2                  MSE=n1​∑i=1n​(yi​−y^​i​)2
选择MSE是由于它在回归问题中广泛使用,计算简单且误差放大效果有助于模子尽量淘汰大误差。
例子2:图片分类(分类问题)
假设我们在做手写数字识别,可以选择多分类交织熵损失:
                                    Categorical Cross-Entropy                         =                         −                                   1                            n                                            ∑                                       i                               =                               1                                      n                                            ∑                                       c                               =                               1                                      C                                            y                                       i                               ,                               c                                            log                         ⁡                         (                                              y                               ^                                                 i                               ,                               c                                            )                              \text{Categorical Cross-Entropy} = - \frac{1}{n} \sum_{i=1}^{n} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c})                  Categorical Cross-Entropy=−n1​∑i=1n​∑c=1C​yi,c​log(y^​i,c​)
选择交织熵损失是由于它能够很好地处理分类概率分布,帮助模子最大化精确分类的概率。
总结

损失函数是评估和优化呆板学习模子的重要工具。定义合理的损失函数必要结合具体任务、误差特性、模子的可解释性、优化难度和应用场景等多个因素。选择合适的损失函数能够帮助我们构建更正确和有效的呆板学习模子。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

熊熊出没

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表