【呆板学习及深度学习】呆板学习模子的误差:毛病、方差及噪声

[复制链接]
发表于 2025-6-29 12:13:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
V1.1

手工写稿后语音转录并编写公式,手工写稿只为让您更好明白,接待阅读。
呆板学习模子的权衡准则

权衡呆板学习模子的效果可以思量以下几个方面:


  • 毛病(Bias)
    在充实训练的情况下,呆板学习模子是否可以或许较好地拟合训练数据,以反映真实规律。
    这些问题可以被称为模子的能力,权衡这一问题的指标称为毛病(Bias)。
  • 方差(Variance)
    在充实训练的情况下,不同的呆板学习模子对不同训练数据集敏感水平不同。某些呆板学习模子使用不同的训练数据进行训练,所得到的模子的输出结果较为稳定。而某些呆板学习模子使用不同的训练数据进行训练,所得到的模子的输出结果不稳定,有较大波动,即对不同训练数据的鲁棒水平较低。
    权衡呆板学习对训练数据的鲁棒水平这一问题的指标称为方差(Variance)。
  • 噪声(Noise)
    呆板学习模子是为了拟合训练数据,以达到反映真实数据规律的功能。在实际情况中,收罗到的训练数据往往不即是真实数据,训练数据往往会包罗随机波动,因此会对模子的结果造成肯定的误差。训练数据的随机波动往往是因为丈量方法限制、丈量精度限制、标注错误等而产生的。
    权衡训练数据中真实规律数据以外的随机扰动的指标称为噪声(Noise)。
概念引入

为了对呆板学习模子的误差进行分析,需要明白以下几个概念


  •                                                                                                   f                                     ^                                              (                                  x                                  )                                                                             \space\hat{f}(x)\space                            f^​(x) 数据预测函数(Estimated Function)
    数据预测函数                                                                                         f                                  ^                                          (                               x                               )                                                                      \space\hat{f}(x)\space                         f^​(x) 是通过训练过程得到的呆板学习模子,使用该模子对输入数据进行预测。
    同样结构的呆板学习模子,使用不同的训练集和初始值以及训练方法进行训练,应该会得到有差异的结果。因此对预测函数的输出结果求盼望值                                                                             E                               (                                           f                                  ^                                          (                               x                               )                               )                                                                      \space E(\hat{f}(x))\space                         E(f^​(x)) 是故意义的,该盼望值可以或许反映不同训练条件下,模子结果的平均水平。
  •                                                                                      y                                                                             \space y\space                            y 观测值(Observed Value)
    使用观测本事观测所得到的数据,即训练时模子使用的实际数据。观测值是包罗噪声的真实数据,由于丈量方法限制、丈量精度限制、标注错误等缘故原由会和真实值                                                                             f                               (                               x                               )                                                                      \space f(x)\space                         f(x) 有毛病。
    观测值                                                                             y                                                                      \space y\space                         y 与真实函数                                                                             f                               (                               x                               )                                                                      \space f(x)\space                         f(x) 的关系如下:
                                                       y                                  =                                  f                                  (                                  x                                  )                                  +                                  ϵ                                          y=f(x)+\epsilon                           y=f(x)+ϵ
    此中                                                                             ϵ                                                                      \space \epsilon\space                         ϵ 是噪声,噪声的方差为                                                                                         V                                  a                                  r                                  (                                  ϵ                                  )                                          =                                           σ                                  2                                                 \space{Var(\epsilon)}=\sigma^2                         Var(ϵ)=σ2。
  •                                                                                      f                                  (                                  x                                  )                                                                             \space f(x)\space                            f(x) 真实函数(True Function)
    真实函数                                                                             f                               (                               x                               )                                                                      \space f(x)\space                         f(x) 反映问题的数据的客观真实规律,具体来说,即反映真实的数据输入到输出的映射规律,是理想的不包罗噪声的。收罗的训练数据往往是由真实数据及随机扰动的噪声                                                                             ϵ                                                                      \space \epsilon\space                         ϵ 两部分组成的。
呆板学习模子误差分析

呆板学习模子误差可以分解为毛病、方差和噪声3个部分,公式如下:
                                         E                            [                            (                                       f                               ^                                      (                            x                            )                            −                            y                                       )                               2                                      ]                            =                                                                              Bias                                        2                                                  (                                                   f                                        ^                                                  (                                     x                                     )                                     )                                              ⏟                                          毛病                                      +                                                                Var                                     (                                                   f                                        ^                                                  (                                     x                                     )                                     )                                              ⏟                                          方差                                      +                                                                σ                                     2                                              ⏟                                          噪声                                            E[(\hat{f}(x)-y)^2]=\underbrace{\text{Bias}^2(\hat{f}(x))}_{毛病}+\underbrace{\text{Var}(\hat{f}(x))}_{方差}+\underbrace{\sigma^2}_{噪声}                     E[(f^​(x)−y)2]=毛病                                                         Bias2(f^​(x))​​+方差                                                         Var(f^​(x))​​+噪声                                                         σ2​​
呆板学习的误差分析公式,在满足噪声独立性、零均值噪声和模子针对多个训练集求盼望时,公式是严谨的。这部分内容更加复杂,本文不进行探讨,可以自行寻找资料研究。


  • 毛病(Bias)
    毛病反映了多次训练模子预测结果与真实结果之间的体系性误差。公式如下:
                                                       B                                  i                                  a                                  s                                  (                                               f                                     ^                                              (                                  x                                  )                                  )                                  =                                  E                                  [                                               f                                     ^                                              (                                  x                                  )                                  ]                                  −                                  f                                  (                                  x                                  )                                          Bias(\hat{f}(x))=E[\hat{f}(x)]-f(x)                           Bias(f^​(x))=E[f^​(x)]−f(x)
    公式明白:毛病即为预测模子的预测结果的盼望与真实函数预测结果的差值。
    毛病反映了在充实训练的情况下模子结构的能力。
    毛病越小,说明模子拟合能力越强,更适用于该种问题。毛病越小,也有可能是过拟合的缘故原由,此时通常会毛病小而方差大。毛病越大,说明预测模子的预测结果的体系性偏离了要拟合的训练数据,无法有效反应真实规律。
  • 方差(Variance)
    方差反映了模子对不同的训练数据是否鲁棒。训练数据的随机波动会对模子训练结果产生影响。方差的公式如下:
                                                       V                                  a                                  r                                  (                                               f                                     ^                                              (                                  x                                  )                                  )                                  =                                  E                                  [                                  (                                               f                                     ^                                              (                                  x                                  )                                  −                                  E                                  [                                               f                                     ^                                              (                                  x                                  )                                  ]                                               )                                     2                                              ]                                          Var(\hat{f}(x))=E[(\hat{f}(x)-E[\hat{f}(x)])^2]                           Var(f^​(x))=E[(f^​(x)−E[f^​(x)])2]
    公式明白:方差为各个训练集训练结果                                                                                         f                                  ^                                          (                               x                               )                                                                      \space \hat{f}(x)\space                         f^​(x) 分别减去全部预测结果的盼望值                                                                             E                               [                                           f                                  ^                                          (                               x                               )                               ]                                      \space E[\hat{f}(x)]                         E[f^​(x)],每个差值                                                                             (                                           f                                  ^                                          (                               x                               )                               −                               E                               [                                           f                                  ^                                          (                               x                               )                               ]                               )                                                                      \space (\hat{f}(x)-E[\hat{f}(x)])\space                         (f^​(x)−E[f^​(x)]) 平方后求盼望,即正常求方差的过程。
    方差反映了模子对不同训练数据的敏感水平。方差高,同样的训练水平,不同的训练集训练出的呆板学习模子的预测结果差异大。这通常是由于模子训练发生了过拟合,模子过多的拟合了训练数据中的噪声,造成其泛化能力降落。低方差的情况下,不同训练集训练出的模子预测结果更稳定。
  • 噪声(Noise)
    噪声是由于训练数据本身包罗的不可约误差,给呆板学习模子造成的误差。由于噪声的存在,导致收罗到的训练数据偏离真实数据,这些有噪声的训练数据会限制模子性能的上限。
误差出现的缘故原由及消除



  • 高毛病的缘故原由
    训练不充实,或模子能力不足,可能是模子类型选择不当或模子参数目不够。
    办理方法:
    – 选择更合适的模子。
    – 增长同种模子的复杂度或参数目。如线性回归模子可使用多项式线性回归,或神经网络增长网络层数和参数数目。
  • 高方差的缘故原由
    模子过于复杂,拟合能力过强,导致过分拟合了特定训练数据或噪声,导致其泛化能力差。
    办理方法
    – 可以进行模子简化,例如神经网络淘汰参数数目。
    – 增长训练数据量。
    – 使用正则化本事,如L1、L2正则化。
    – 使用集成学习方法。
  • 噪声出现的缘故原由
    噪声产生于数据生成过程中的不确定因素,所导致的训练数据的随机扰动。
    噪声产生的缘故原由包罗数据收罗层面的缘故原由,如摄像头像素噪声,声音收罗时的情况噪声等。以及数据标注层面的噪声,例如正负批评种别标注错误等。
    办理方法
    噪声不可能完全消除,可以对数据进行处置处罚只管降低其影响。
    – 可以使用更加鲁棒的模子。
    – 使用集成学习方法。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

快速回复 返回顶部 返回列表