f ^ ( x ) \space\hat{f}(x)\space f^(x) 数据预测函数(Estimated Function):
数据预测函数 f ^ ( x ) \space\hat{f}(x)\space f^(x) 是通过训练过程得到的呆板学习模子,使用该模子对输入数据进行预测。
同样结构的呆板学习模子,使用不同的训练集和初始值以及训练方法进行训练,应该会得到有差异的结果。因此对预测函数的输出结果求盼望值 E ( f ^ ( x ) ) \space E(\hat{f}(x))\space E(f^(x)) 是故意义的,该盼望值可以或许反映不同训练条件下,模子结果的平均水平。
y \space y\space y 观测值(Observed Value):
使用观测本事观测所得到的数据,即训练时模子使用的实际数据。观测值是包罗噪声的真实数据,由于丈量方法限制、丈量精度限制、标注错误等缘故原由会和真实值 f ( x ) \space f(x)\space f(x) 有毛病。
观测值 y \space y\space y 与真实函数 f ( x ) \space f(x)\space f(x) 的关系如下:
y = f ( x ) + ϵ y=f(x)+\epsilon y=f(x)+ϵ
此中 ϵ \space \epsilon\space ϵ 是噪声,噪声的方差为 V a r ( ϵ ) = σ 2 \space{Var(\epsilon)}=\sigma^2 Var(ϵ)=σ2。
f ( x ) \space f(x)\space f(x) 真实函数(True Function):
真实函数 f ( x ) \space f(x)\space f(x) 反映问题的数据的客观真实规律,具体来说,即反映真实的数据输入到输出的映射规律,是理想的不包罗噪声的。收罗的训练数据往往是由真实数据及随机扰动的噪声 ϵ \space \epsilon\space ϵ 两部分组成的。
呆板学习模子误差分析
呆板学习模子误差可以分解为毛病、方差和噪声3个部分,公式如下:
E [ ( f ^ ( x ) − y ) 2 ] = Bias 2 ( f ^ ( x ) ) ⏟ 毛病 + Var ( f ^ ( x ) ) ⏟ 方差 + σ 2 ⏟ 噪声 E[(\hat{f}(x)-y)^2]=\underbrace{\text{Bias}^2(\hat{f}(x))}_{毛病}+\underbrace{\text{Var}(\hat{f}(x))}_{方差}+\underbrace{\sigma^2}_{噪声} E[(f^(x)−y)2]=毛病 Bias2(f^(x))+方差 Var(f^(x))+噪声 σ2
呆板学习的误差分析公式,在满足噪声独立性、零均值噪声和模子针对多个训练集求盼望时,公式是严谨的。这部分内容更加复杂,本文不进行探讨,可以自行寻找资料研究。
毛病(Bias)
毛病反映了多次训练模子预测结果与真实结果之间的体系性误差。公式如下:
B i a s ( f ^ ( x ) ) = E [ f ^ ( x ) ] − f ( x ) Bias(\hat{f}(x))=E[\hat{f}(x)]-f(x) Bias(f^(x))=E[f^(x)]−f(x)
公式明白:毛病即为预测模子的预测结果的盼望与真实函数预测结果的差值。
毛病反映了在充实训练的情况下模子结构的能力。
毛病越小,说明模子拟合能力越强,更适用于该种问题。毛病越小,也有可能是过拟合的缘故原由,此时通常会毛病小而方差大。毛病越大,说明预测模子的预测结果的体系性偏离了要拟合的训练数据,无法有效反应真实规律。
方差(Variance)
方差反映了模子对不同的训练数据是否鲁棒。训练数据的随机波动会对模子训练结果产生影响。方差的公式如下:
V a r ( f ^ ( x ) ) = E [ ( f ^ ( x ) − E [ f ^ ( x ) ] ) 2 ] Var(\hat{f}(x))=E[(\hat{f}(x)-E[\hat{f}(x)])^2] Var(f^(x))=E[(f^(x)−E[f^(x)])2]
公式明白:方差为各个训练集训练结果 f ^ ( x ) \space \hat{f}(x)\space f^(x) 分别减去全部预测结果的盼望值 E [ f ^ ( x ) ] \space E[\hat{f}(x)] E[f^(x)],每个差值 ( f ^ ( x ) − E [ f ^ ( x ) ] ) \space (\hat{f}(x)-E[\hat{f}(x)])\space (f^(x)−E[f^(x)]) 平方后求盼望,即正常求方差的过程。
方差反映了模子对不同训练数据的敏感水平。方差高,同样的训练水平,不同的训练集训练出的呆板学习模子的预测结果差异大。这通常是由于模子训练发生了过拟合,模子过多的拟合了训练数据中的噪声,造成其泛化能力降落。低方差的情况下,不同训练集训练出的模子预测结果更稳定。