0
点赞
收藏
分享

微信扫一扫

相关系数r和决定系数R2的那些事


文章目录

  • ​​相关系数$r$和决定系数$R^2$的那些事​​
  • ​​协方差与相关系数​​
  • ​​决定系数(R方)​​
  • ​​参考资料​​

相关系数 r r r和决定系数 R 2 R^2 R2的那些事

有人说相关系数(correlation coefficient,)和决定系数(coefficient of determination,,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!

协方差与相关系数

要说相关系数,我们先来聊聊协方差。在之前的博文《​​使用Python计算方差协方差相关系数​​​》中提到协方差是计算两个随机变量

但是协方差有一个确定:它的值会随着变量量纲的变化而变化(covariance is not scale invariant),所以,这才提出了相关系数的概念:

对于相关系数,我们需要注意:

  1. 相关系数是用于描述两个变量线性相关程度的,如果,呈正相关;如果,不相关;如果,呈负相关。
  2. 如果我们将看成两个向量的话,那刚好表示的是这两个向量夹角的余弦值,这也就解释了为什么的值域是[-1, 1]。
  3. 相关系数对变量的平移和缩放(线性变换)保持不变(Correlation is invariant to scaling and shift,不知道中文该如何准确表达,?)。比如恒成立。

决定系数(R方)

下面来说决定系数,R方一般用在回归模型用用于评估预测值和实际值的符合程度,R方的定义如下:

上式中是实际值,是预测值,是实际值的平均值。被称为fraction of variance unexplained,RSS叫做Residual sum of squares,TSS叫做Total sum of squares。根据的定义,可以看到是有可能小于0的,所以不是的平方。一般地,越接近1,表示回归分析中自变量对因变量的解释越好。

对于可以通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。

此外,我们做这样一个变形:,可以看到变成了1减去均方根误差和方差的比值(有利于编程实现)。

另外有一个叫做Explained sum of squares,

在一般地线性回归模型中,有(证明过程参见:​​​Partitioning in the general ordinary least squares model​​)

在这种情况下:我们有

对于我们需要注意:

  1. 一般用在线性模型中(虽然非线性模型总也可以用),具体参见:​​Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?​​
  2. 不能完全反映模型预测能力的高低

最后,这篇文章《​​8 Tips for Interpreting R-Squared​​​》里面指出了不错误解读的地方,读完之后,我觉得以后还是少用,对于模型的评估可以选择其它一些更适合的指标。

参考资料

[1]. ​​The relationship between correlation and the coefficient of determination​​

[2]. ​​Coefficient of determination​​

[3]. ​​Explained sum of squares​​

[4]. ​​Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?​​

[5]. ​​8 Tips for Interpreting R-Squared​​


举报

相关推荐

0 条评论