相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。
如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

(1)、当相关系数为0时,X和Y两变量无关系。

(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

1、皮尔逊相关系数(Pearson Correlation Coefficient):

1.1衡量两个值线性相关强度的量,
1.2取值范围[-1,1]:
正向相关:>0,负向相关:<O,无相关性:=O。
假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:
机器学习(十一):回归中的相关度和决定系数
机器学习(十一):回归中的相关度和决定系数
以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。

2、适用范围

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立

3、R平方值

3.1定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。
3.2描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%
3.3︰简单线性回归:R^2 = r* r
多元线性回归:
机器学习(十一):回归中的相关度和决定系数
3.4 R平方也有其局限性: R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法:
机器学习(十一):回归中的相关度和决定系数

相关文章: