【漫话机器学习系列】133.决定系数(R²:Coefficient of Determination) ...

打印 上一主题 下一主题

主题 963|帖子 963|积分 2889


决定系数(
)详解


决定系数(
)是回归分析中用于评估模型拟合优度的一个紧张统计指标。它体现自变量(特征变量)能够解释因变量(目标变量)变异的程度,取值范围为 [0,1] 或 (−∞,1](取决于模型情况)。在本篇文章中,我们将详细剖析
的数学公式、直观明白、盘算方法及其在回归分析中的应用。

1.
的数学定义


决定系数的公式如下:

其中:


  • :真实值(True Y)
  • ​ :模型猜测值(Predicted Y)
  • :真实值的均值(Mean True Y)
  • 残差平方和(Residual Sum of Squares, RSS),权衡模型猜测值与真实值之间的误差。
  • 总平方和(Total Sum of Squares, TSS),权衡目标变量本身的方差。
(1)分子:残差平方和 RSS


这一项体现模型猜测值与真实值之间的误差。误差越大,模型拟合效果越差。
(2)分母:总平方和 TSS


它体现目标变量本身的方差,即目标变量 Y 的离散程度。总平方和权衡的是假如我们用 均值
作为猜测值,而不利用任何回归模型时的误差。
(3)决定系数
的直观意义


R2R^2R2 可以明白为:


  • 模型解释了多少目标变量的变革。假如
    ,意味着模型可以解释 80% 的目标变量变异。
  • 模型的拟合优度
    越接近 1,说明模型的猜测本领越强;越接近 0,说明模型险些没有猜测本领。

2.
的取值范围及解读


(1)


假如
,则:

即全部猜测值完全等于真实值,说明模型完善拟合数据。但这种情况在现实中极少出现,通常发生在过拟适时。
(2)


假如
,则:

体现模型猜测的误差与直接利用均值猜测的误差相同,说明模型没有任何猜测本领。
(3)


理论上
不会小于 0,但在某些情况下(如利用不恰当的数据或非线性模型时),大概出现
。这体现模型比简朴均值猜测还要差,说明模型完全不实用于该数据集。

3.
的直观解释


在图中:


  • 分子(蓝色部分)体现猜测值与真实值之间的误差平方和(RSS)。
  • 分母(绿色部分)体现真实值与均值之间的误差平方和(TSS)。
  • 公式的意义

    • 当猜测误差较小时,RSS 较小,使得
      趋近于 1,体现模型较好。
    • 当猜测误差较大时,RSS 接近或超过 TSS,导致
      接近 0 或负值,说明模型较差。


4.
的盘算示例


假设我们有以下数据:
真实值
猜测值
32.855.276.999.1

  • 盘算均值:


  • 盘算总平方和 TSS:


  • 盘算残差平方和 RSS:


  • 盘算

    说明模型的拟合效果非常好。


5.
的局限性


虽然
是一个紧张的评估指标,但它也有一些局限性:

  • 不能直接判断模型是否合适

    • 大概是由于过拟合,即模型学到了训练数据的噪声而不是数据的真实模式。
    • 并不愿定代表模型无效,有时目标变量本身就具有很大随机性。

  • 不能用于非线性关系

    • 重要用于线性回归模型,假如数据具有非线性关系,即使模型有用,R2R^2R2 也大概较低。

  • 不能解释因果关系

    • 仅表明自变量和因变量之间的相干性,但不能说明自变量是否真正导致因变量的变革。


6. 结论



  • 决定系数
    权衡模型对目标变量的解释本领,范围通常在 [0,1] 之间

  • 代表完善拟合,
    代表模型无效,
    代表模型比随机猜测还差

  • 尽管
    是紧张的评价指标,但在评估回归模型时,应该结合其他指标(如均方误差 MSE、调整
    )来全面分析模型性能


这篇文章结合了数学公式、直观明白、示例盘算和实际应用,希望能资助你深入明白决定系数(


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

兜兜零元

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表