协方差与皮尔逊相干系数:从界说到应用的全面解析

打印 上一主题 下一主题

主题 2145|帖子 2145|积分 6435





  

一、协方差与皮尔逊相干系数的界说

1.1 协方差(Covariance)

协方差是衡量两个随机变量                                    X                              X                  X 和                                    Y                              Y                  Y 共同变化趋势的统计量,其界说为:
                                         Cov                            (                            X                            ,                            Y                            )                            =                                                   ∑                                  (                                               x                                     i                                              −                                               x                                     ˉ                                              )                                  (                                               y                                     i                                              −                                               y                                     ˉ                                              )                                                      n                                  −                                  1                                                       \text{Cov}(X,Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}                     Cov(X,Y)=n−1∑(xi​−xˉ)(yi​−yˉ​)​
其中:


  •                                                    x                               i                                      ,                                       y                               i                                            x_i, y_i                     xi​,yi​ 是样本数据点;
  •                                                    x                               ˉ                                      ,                                       y                               ˉ                                            \bar{x}, \bar{y}                     xˉ,yˉ​ 是样本均值;
  •                                         n                                  n                     n 是样本容量。
意义


  • 正值:                                        X                                  X                     X 和                                         Y                                  Y                     Y 趋于同向变化(正相干);
  • 负值:                                        X                                  X                     X 和                                         Y                                  Y                     Y 趋于反向变化(负相干);
  • :无线性相干性。
1.2 皮尔逊相干系数(Pearson Correlation Coefficient)


皮尔逊相干系数是协方差的标准化版本,用于量化两个变量之间的线性相干程度,界说为:
                                                    r                                           x                                  y                                                 =                                                   Cov                                  (                                  X                                  ,                                  Y                                  )                                                                   σ                                     x                                                           σ                                     y                                                                   r_{xy} = \frac{\text{Cov}(X,Y)}{\sigma_x \sigma_y}                     rxy​=σx​σy​Cov(X,Y)​
其中:


  •                                                    σ                               x                                      ,                                       σ                               y                                            \sigma_x, \sigma_y                     σx​,σy​ 是                                         X                                  X                     X 和                                         Y                                  Y                     Y 的标准差;
  •                                         r                                  r                     r 的取值范围为                                         [                            −                            1                            ,                            1                            ]                                  [-1, 1]                     [−1,1]。
意义


  •                                              r                               =                               1                                      r = 1                        r=1:完全正相干;
  •                                              r                               =                               −                               1                                      r = -1                        r=−1:完全负相干;
  •                                              r                               =                               0                                      r = 0                        r=0:无线性相干性。

二、协方差的界说与推导逻辑

2.1 核心目的:衡量变量的“协同变化”

协方差的核心思想是量化两个变量是否倾向于同时偏离各自的均值


  • 同向偏离均值:若                                         X                                  X                     X 和                                         Y                                  Y                     Y 的值经常同时高于或低于各自均值,则协方差为正;
  • 反向偏离均值:若                                         X                                  X                     X 高于均值时                                         Y                                  Y                     Y 低于均值,则协方差为负。
2.2 数学表达的直观性

协方差的公式:
                                         Cov                            (                            X                            ,                            Y                            )                            =                            E                            [                            (                            X                            −                            E                            [                            X                            ]                            )                            (                            Y                            −                            E                            [                            Y                            ]                            )                            ]                                  \text{Cov}(X,Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]                     Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
或样本情势:
                                         Cov                            (                            X                            ,                            Y                            )                            =                                                                ∑                                                   i                                        =                                        1                                                  n                                              (                                               x                                     i                                              −                                               x                                     ˉ                                              )                                  (                                               y                                     i                                              −                                               y                                     ˉ                                              )                                                      n                                  −                                  1                                                       \text{Cov}(X,Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n-1}                     Cov(X,Y)=n−1∑i=1n​(xi​−xˉ)(yi​−yˉ​)​


  • 分子                                         (                                       x                               i                                      −                                       x                               ˉ                                      )                            (                                       y                               i                                      −                                       y                               ˉ                                      )                                  (x_i - \bar{x})(y_i - \bar{y})                     (xi​−xˉ)(yi​−yˉ​) 的意义:

    • 当                                                                x                                     i                                                      x_i                           xi​ 和                                                                y                                     i                                                      y_i                           yi​ 同时高于或低于均值时,乘积为正,表明变量“协同变化”
    • 当                                                                x                                     i                                                      x_i                           xi​ 和                                                                y                                     i                                                      y_i                           yi​ 偏离方向相反时,乘积为负,表明变量“反向变化”

  • 分母                                         n                            −                            1                                  n-1                     n−1 的意义:

    • 对样本协方差举行无偏估计的修正(即 Bessel’s correction),确保样本协方差是总体协方差的无偏估计量。

2.3 从线性关系的最小误差出发

假设变量间存在线性关系                                    Y                         =                         a                         X                         +                         b                              Y = aX + b                  Y=aX+b,目的是通过最小化误差平方和                                    S                         =                         ∑                         (                                   y                            i                                  −                         a                                   x                            i                                  −                         b                                   )                            2                                       S = \sum (y_i - a x_i - b)^2                  S=∑(yi​−axi​−b)2 来求解最优参数                                    a                              a                  a 和                                    b                              b                  b。


  • 通过求导并解方程,可得:
                                                  a                               =                                                        Cov                                     (                                     X                                     ,                                     Y                                     )                                                           Var                                     (                                     X                                     )                                                      ,                                         b                               =                                           y                                  ˉ                                          −                               a                                           x                                  ˉ                                                 a = \frac{\text{Cov}(X,Y)}{\text{Var}(X)}, \quad b = \bar{y} - a \bar{x}                        a=Var(X)Cov(X,Y)​,b=yˉ​−axˉ
  • 这表明协方差是最小化线性误差的关键量,其值越大,线性关系越强。
2.4 从概率论的期望角度推导

协方差的期望情势:
                                         Cov                            (                            X                            ,                            Y                            )                            =                            E                            [                            X                            Y                            ]                            −                            E                            [                            X                            ]                            E                            [                            Y                            ]                                  \text{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]                     Cov(X,Y)=E[XY]−E[X]E[Y]
推导过程
                                                                                           E                                        [                                        (                                        X                                        −                                                       μ                                           X                                                      )                                        (                                        Y                                        −                                                       μ                                           Y                                                      )                                        ]                                                                                                                       =                                        E                                        [                                        X                                        Y                                        −                                                       μ                                           Y                                                      X                                        −                                                       μ                                           X                                                      Y                                        +                                                       μ                                           X                                                                     μ                                           Y                                                      ]                                                                                                                                                                                               =                                        E                                        [                                        X                                        Y                                        ]                                        −                                                       μ                                           Y                                                      E                                        [                                        X                                        ]                                        −                                                       μ                                           X                                                      E                                        [                                        Y                                        ]                                        +                                                       μ                                           X                                                                     μ                                           Y                                                                                                                                                                                                             =                                        E                                        [                                        X                                        Y                                        ]                                        −                                                       μ                                           X                                                                     μ                                           Y                                                                                              \begin{aligned} \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] &= \mathbb{E}[XY - \mu_Y X - \mu_X Y + \mu_X \mu_Y] \\ &= \mathbb{E}[XY] - \mu_Y \mathbb{E}[X] - \mu_X \mathbb{E}[Y] + \mu_X \mu_Y \\ &= \mathbb{E}[XY] - \mu_X \mu_Y \end{aligned}                     E[(X−μX​)(Y−μY​)]​=E[XY−μY​X−μX​Y+μX​μY​]=E[XY]−μY​E[X]−μX​E[Y]+μX​μY​=E[XY]−μX​μY​​
这表明协方差是团结期望                                    E                         [                         X                         Y                         ]                              \mathbb{E}[XY]                  E[XY] 与均值乘积                                              μ                            X                                            μ                            Y                                       \mu_X \mu_Y                  μX​μY​ 的差值,反映了变量间偏离独立性的程度。

三、协方差的几何解释与范围性

3.1 向量视角:内积与投影

将变量                                    X                              X                  X 和                                    Y                              Y                  Y 看作向量,则协方差可以视为它们的内积(点积):
                                         Cov                            (                            X                            ,                            Y                            )                            =                                       1                                           n                                  −                                  1                                                            ∑                                           i                                  =                                  1                                          n                                      (                                       x                               i                                      −                                       x                               ˉ                                      )                            (                                       y                               i                                      −                                       y                               ˉ                                      )                                  \text{Cov}(X,Y) = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})                     Cov(X,Y)=n−11​i=1∑n​(xi​−xˉ)(yi​−yˉ​)


  • 内积的符号和大小直接反映两个向量的方向同等性和夹角大小。
3.2 散点图视角:面积的正负

在二维散点图中,每个点                                    (                                   x                            i                                  ,                                   y                            i                                  )                              (x_i, y_i)                  (xi​,yi​) 与其均值点                                    (                                   x                            ˉ                                  ,                                   y                            ˉ                                  )                              (\bar{x}, \bar{y})                  (xˉ,yˉ​) 形成的矩形面积为                                    (                                   x                            i                                  −                                   x                            ˉ                                  )                         (                                   y                            i                                  −                                   y                            ˉ                                  )                              (x_i - \bar{x})(y_i - \bar{y})                  (xi​−xˉ)(yi​−yˉ​):


  • 红色区域(第一、第三象限):面积为正,表现正相干;
  • 蓝色区域(第二、第四象限):面积为负,表现负相干。
  • 协方差是全部矩形面积的总和,正负值直接反映团体趋势。
3.3 范围性与改进

(1)单位依赖性



  • 协方差的值受变量单位的影响。比方:

    • 若                                                   X                                          X                           X 的单位是“小时”,                                                  Y                                          Y                           Y 的单位是“分”,协方差值会因单位不同而无法比较。

  • 改进方案:引入皮尔逊相干系数通过除以标准差消除单位影响
(2)仅反映线性相干性



  • 协方差只能衡量线性关系,无法捕获非线性相干性(如抛物线关系)。
  • 改进方案:利用Spearman相干系数(基于排序)或间隔相干系数(适用于非线性关系)。

四、协方差与皮尔逊相干系数的关系

4.1 数学上的联系

皮尔逊相干系数是通过标准化协方差得到的:
                                                    r                                           x                                  y                                                 =                                                   Cov                                  (                                  X                                  ,                                  Y                                  )                                                                   σ                                     x                                                           σ                                     y                                                                   r_{xy} = \frac{\text{Cov}(X,Y)}{\sigma_x \sigma_y}                     rxy​=σx​σy​Cov(X,Y)​


  • 协方差受变量单位影响,无法直接比较不同数据集的相干性;
  • 相干系数通过除以标准差,消除了单位影响,使得效果在                                         [                            −                            1                            ,                            1                            ]                                  [-1, 1]                     [−1,1] 范围内,便于跨数据集比较。
4.2 几何视角



  • 协方差:反映变量偏离均值后乘积的总趋势;
  • 相干系数:等价于两个变量向量的余弦相似度,衡量方向同等性。

五、计算示例

5.1 协方差计算示例

数据:某班级门生的学习时间(                                   X                              X                  X)与考试成绩(                                   Y                              Y                  Y)如下:
门生X(学习小时)Y(成绩)15752680347048905785 步调

  • 计算均值:                                                   x                               ˉ                                      =                            6                                  \bar{x} = 6                     xˉ=6,                                                   y                               ˉ                                      =                            80                                  \bar{y} = 80                     yˉ​=80;
  • 计算偏差乘积并求和:

    •                                                   ∑                                  (                                               x                                     i                                              −                                               x                                     ˉ                                              )                                  (                                               y                                     i                                              −                                               y                                     ˉ                                              )                                  =                                  5                                  +                                  0                                  +                                  20                                  +                                  20                                  +                                  5                                  =                                  50                                          \sum (x_i - \bar{x})(y_i - \bar{y}) = 5+0+20+20+5 = 50                           ∑(xi​−xˉ)(yi​−yˉ​)=5+0+20+20+5=50;

  • 代入公式:                                        Cov                            (                            X                            ,                            Y                            )                            =                                       50                               4                                      =                            12.5                                  \text{Cov}(X,Y) = \frac{50}{4} = 12.5                     Cov(X,Y)=450​=12.5。
结论:协方差为正(12.5),表明学习时间与成绩呈正相干趋势。
5.2 皮尔逊相干系数计算


  • 计算标准差:

    •                                                                σ                                     x                                              ≈                                  1.58                                          \sigma_x \approx 1.58                           σx​≈1.58,                                                               σ                                     y                                              ≈                                  7.91                                          \sigma_y \approx 7.91                           σy​≈7.91;

  • 代入公式:                                                   r                                           x                                  y                                                 =                                       12.5                                           1.58                                  ×                                  7.91                                                 ≈                            0.998                                  r_{xy} = \frac{12.5}{1.58 \times 7.91} \approx 0.998                     rxy​=1.58×7.9112.5​≈0.998。
结论:相干系数接近1,表明学习时间与成绩高度正相干。

六、应用场景

6.1 协方差的应用


  • 金融领域

    • 构建投资组合时,通过协方差矩阵分析资产间的风险相干性;
    • 公式:                                                               σ                                     p                                     2                                              =                                               w                                     T                                              Σ                                  w                                          \sigma_p^2 = \mathbf{w}^T \Sigma \mathbf{w}                           σp2​=wTΣw,其中                                                   Σ                                          \Sigma                           Σ 是协方差矩阵。

  • 呆板学习

    • 特征选择中,协方差用于剔除冗余特征;
    • 比方,高度相干的特征对模子性能无显著提拔。

  • 信号处理

    • 分析信号的同步性(如脑电图数据)。

6.2 皮尔逊相干系数的应用


  • 推荐系统

    • 用户相似度计算(基于评分数据);

  • 生物信息学

    • 基因表达数据分析(共表达网络构建);

  • 社会科学

    • 生理学实行中变量间关系的量化(如焦虑与睡眠质量)。


七、优缺点与注意事项

7.1 协方差的范围性



  • 单位依赖:无法直接比较不同量纲的变量;
  • 敏感性:对非常值敏感,可能导致误判。
7.2 皮尔逊相干系数的范围性



  • 仅衡量线性关系:非线性关系(如抛物线)可能被低估;
  • 假设正态分布:非正态数据需改用Spearman相干系数。
7.3 实际应用建议


  • 数据预处理

    • 去除非常值,标准化数据;
    • 检验数据正态性。

  • 联合其他指标

    • 用散点图辅助判断非线性关系;
    • 联合偏相干系数清除干扰变量。


八、扩展:协方差矩阵与多元分析

8.1 协方差矩阵



  • 界说:多变量协方差的矩阵情势,用于形貌变量间的团体相干性;
  • 公式
                                                  Σ                               =                                           [                                                                                                             Var                                                 (                                                                   X                                                    1                                                                  )                                                                                                                                     Cov                                                 (                                                                   X                                                    1                                                                  ,                                                                   X                                                    2                                                                  )                                                                                                                                                             Cov                                                 (                                                                   X                                                    2                                                                  ,                                                                   X                                                    1                                                                  )                                                                                                                                     Var                                                 (                                                                   X                                                    2                                                                  )                                                                                                        ]                                                 \mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1,X_2) \\ \text{Cov}(X_2,X_1) & \text{Var}(X_2) \end{bmatrix}                        Σ=[Var(X1​)Cov(X2​,X1​)​Cov(X1​,X2​)Var(X2​)​]
  • 应用:主身分分析(PCA)、多元回归模子。
8.2 皮尔逊相干系数的扩展



  • 偏相干系数:控制其他变量影响后的相干性;
  • 间隔相干系数:适用于非线性关系的度量。

九、总结

协方差与皮尔逊相干系数是统计学中分析变量关系的核心工具。协方差通过数学期望和偏差乘积量化变量的团结变化趋势,其计划逻辑基于最小化线性误差的优化目的,并联合概率论的期望推导。只管协方差存在单位依赖性和仅反映线性相干性的范围性,但它仍是统计学和数据分析中不可或缺的基础工具。通过标准化(如皮尔逊相干系数)或改进方法(如非线性相干系数),可以进一步扩展其应用范围。无论是金融建模照旧生物研究,把握这两者的原理与实践本领,都是数据科学与统计分析的关键本领。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

鼠扑

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表