兜兜零元 发表于 2025-3-13 13:16:20

【漫话机器学习系列】133.决定系数(R²:Coefficient of Determination)

https://i-blog.csdnimg.cn/direct/0f816d3ed9d349a7bc4833d4a1dffff4.png
决定系数(https://latex.csdn.net/eq?R%5E2)详解

决定系数(https://latex.csdn.net/eq?R%5E2)是回归分析中用于评估模型拟合优度的一个紧张统计指标。它体现自变量(特征变量)能够解释因变量(目标变量)变异的程度,取值范围为  或 (−∞,1](取决于模型情况)。在本篇文章中,我们将详细剖析 https://latex.csdn.net/eq?R%5E2 的数学公式、直观明白、盘算方法及其在回归分析中的应用。
1. https://latex.csdn.net/eq?R%5E2 的数学定义

决定系数的公式如下:
https://latex.csdn.net/eq?R%5E2%20%3D%201%20-%20%5Cfrac%7B%5Csum%20%28y_i%20-%20%5Chat%7By%7D_i%29%5E2%7D%7B%5Csum%20%28y_i%20-%20%5Cbar%7By%7D%29%5E2%7D
其中:


[*]https://latex.csdn.net/eq?y_i :真实值(True Y)
[*]https://latex.csdn.net/eq?%5Chat%7By%7D_i​ :模型猜测值(Predicted Y)
[*]https://latex.csdn.net/eq?%5Cbar%7By%7D:真实值的均值(Mean True Y)
[*]https://latex.csdn.net/eq?%5Csum%20%28y_i%20-%20%5Chat%7By%7D_i%29%5E2 :残差平方和(Residual Sum of Squares, RSS),权衡模型猜测值与真实值之间的误差。
[*]https://latex.csdn.net/eq?%5Csum%20%28y_i%20-%20%5Cbar%7By%7D%29%5E2 :总平方和(Total Sum of Squares, TSS),权衡目标变量本身的方差。
(1)分子:残差平方和 RSS

https://latex.csdn.net/eq?RSS%20%3D%20%5Csum%20%28y_i%20-%20%5Chat%7By%7D_i%29%5E2
这一项体现模型猜测值与真实值之间的误差。误差越大,模型拟合效果越差。
(2)分母:总平方和 TSS

https://latex.csdn.net/eq?TSS%20%3D%20%5Csum%20%28y_i%20-%20%5Cbar%7By%7D%29%5E2
它体现目标变量本身的方差,即目标变量 Y 的离散程度。总平方和权衡的是假如我们用 均值 https://latex.csdn.net/eq?%5Cbar%7By%7D 作为猜测值,而不利用任何回归模型时的误差。
(3)决定系数 https://latex.csdn.net/eq?R%5E2 的直观意义

R2R^2R2 可以明白为:


[*]模型解释了多少目标变量的变革。假如 https://latex.csdn.net/eq?R%5E2%20%3D%200.8,意味着模型可以解释 80% 的目标变量变异。
[*]模型的拟合优度。https://latex.csdn.net/eq?R%5E2 越接近 1,说明模型的猜测本领越强;越接近 0,说明模型险些没有猜测本领。
2. https://latex.csdn.net/eq?R%5E2 的取值范围及解读

(1)https://latex.csdn.net/eq?R%5E2%20%3D%201

假如 https://latex.csdn.net/eq?R%5E2%20%3D%201,则:
https://latex.csdn.net/eq?%5Csum%20%28y_i%20-%20%5Chat%7By%7D_i%29%5E2%20%3D%200
即全部猜测值完全等于真实值,说明模型完善拟合数据。但这种情况在现实中极少出现,通常发生在过拟适时。
(2)https://latex.csdn.net/eq?R%5E2%20%3D%200

假如 https://latex.csdn.net/eq?R%5E2%20%3D%200,则:
https://latex.csdn.net/eq?%5Csum%20%28y_i%20-%20%5Chat%7By%7D_i%29%5E2%20%3D%20%5Csum%20%28y_i%20-%20%5Cbar%7By%7D%29%5E2
体现模型猜测的误差与直接利用均值猜测的误差相同,说明模型没有任何猜测本领。
(3)https://latex.csdn.net/eq?R%5E2%20%3C%200

理论上 https://latex.csdn.net/eq?R%5E2 不会小于 0,但在某些情况下(如利用不恰当的数据或非线性模型时),大概出现 https://latex.csdn.net/eq?R%5E2%20%3C%200。这体现模型比简朴均值猜测还要差,说明模型完全不实用于该数据集。
3. https://latex.csdn.net/eq?R%5E2 的直观解释

在图中:


[*]分子(蓝色部分)体现猜测值与真实值之间的误差平方和(RSS)。
[*]分母(绿色部分)体现真实值与均值之间的误差平方和(TSS)。
[*]公式的意义:

[*]当猜测误差较小时,RSS 较小,使得 https://latex.csdn.net/eq?R%5E2 趋近于 1,体现模型较好。
[*]当猜测误差较大时,RSS 接近或超过 TSS,导致 https://latex.csdn.net/eq?R%5E2 接近 0 或负值,说明模型较差。

4. https://latex.csdn.net/eq?R%5E2 的盘算示例

假设我们有以下数据:
真实值 https://latex.csdn.net/eq?y_i猜测值 https://latex.csdn.net/eq?%5Chat%7By%7D_i32.855.276.999.1
[*] 盘算均值:
https://latex.csdn.net/eq?%5Cbar%7By%7D%20%3D%20%5Cfrac%7B3%20+%205%20+%207%20+%209%7D%7B4%7D%20%3D%206
[*] 盘算总平方和 TSS:
https://latex.csdn.net/eq?TSS%20%3D%20%283%20-%206%29%5E2%20+%20%285%20-%206%29%5E2%20+%20%287%20-%206%29%5E2%20+%20%289%20-%206%29%5E2%3D%209%20+%201%20+%201%20+%209%20%3D%2020
[*] 盘算残差平方和 RSS:
https://latex.csdn.net/eq?RSS%20%3D%20%283%20-%202.8%29%5E2%20+%20%285%20-%205.2%29%5E2%20+%20%287%20-%206.9%29%5E2%20+%20%289%20-%209.1%29%5E2%3D%200.04%20+%200.04%20+%200.01%20+%200.01%20%3D%200.1
[*] 盘算 https://latex.csdn.net/eq?R%5E2:
https://latex.csdn.net/eq?R%5E2%20%3D%201%20-%20%5Cfrac%7B0.1%7D%7B20%7D%20%3D%200.995 说明模型的拟合效果非常好。
5. https://latex.csdn.net/eq?R%5E2 的局限性

虽然 https://latex.csdn.net/eq?R%5E2 是一个紧张的评估指标,但它也有一些局限性:

[*] 不能直接判断模型是否合适

[*]高 https://latex.csdn.net/eq?R%5E2 大概是由于过拟合,即模型学到了训练数据的噪声而不是数据的真实模式。
[*]低 https://latex.csdn.net/eq?R%5E2 并不愿定代表模型无效,有时目标变量本身就具有很大随机性。

[*] 不能用于非线性关系

[*]https://latex.csdn.net/eq?R%5E2 重要用于线性回归模型,假如数据具有非线性关系,即使模型有用,R2R^2R2 也大概较低。

[*] 不能解释因果关系

[*]高 https://latex.csdn.net/eq?R%5E2 仅表明自变量和因变量之间的相干性,但不能说明自变量是否真正导致因变量的变革。

6. 结论



[*]决定系数 https://latex.csdn.net/eq?R%5E2 权衡模型对目标变量的解释本领,范围通常在 之间。
[*]https://latex.csdn.net/eq?R%5E2%20%3D%201 代表完善拟合,https://latex.csdn.net/eq?R%5E2%20%3D%200 代表模型无效,https://latex.csdn.net/eq?R%5E2%20%3C%200 代表模型比随机猜测还差。
[*]尽管 https://latex.csdn.net/eq?R%5E2 是紧张的评价指标,但在评估回归模型时,应该结合其他指标(如均方误差 MSE、调整 https://latex.csdn.net/eq?R%5E2)来全面分析模型性能。
这篇文章结合了数学公式、直观明白、示例盘算和实际应用,希望能资助你深入明白决定系数(https://latex.csdn.net/eq?R%5E2)!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【漫话机器学习系列】133.决定系数(R²:Coefficient of Determination)