机器学习（十一）：回归中的相关度和决定系数

相关系数：考察两个事物（在数据里我们称之为变量）之间的相关程度。
如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

(1)、当相关系数为0时，X和Y两变量无关系。

(2)、当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。

(3)、当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

1、皮尔逊相关系数(Pearson Correlation Coefficient):

1.1衡量两个值线性相关强度的量，
1.2取值范围[-1,1]:
正向相关:>0,负向相关:<O,无相关性:=O。
假设有两个变量X、Y，那么两变量间的皮尔逊相关系数可通过以下公式计算：
机器学习（十一）：回归中的相关度和决定系数

以上列出的四个公式等价，其中E是数学期望，cov表示协方差，N表示变量取值的个数。

2、适用范围

当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：
(1)、两个变量之间是线性关系，都是连续数据。

(2)、两个变量的总体是正态分布，或接近正态的单峰分布。

(3)、两个变量的观测值是成对的，每对观测值之间相互独立

3、R平方值

3.1定义:决定系数，反应因变量的全部变异能通过回归关系被自变量解释的比例。
3.2描述:如R平方为0.8，则表示回归关系可以解释因变量80%的变异。换句话说，如果我们能控制自变量不变，则因变量的变异程度会减少80%
3.3︰简单线性回归:R^2 = r* r
多元线性回归:
机器学习（十一）：回归中的相关度和决定系数
3.4 R平方也有其局限性: R平方随着自变量的增加会变大，R平方和样本量是有关系的。因此，我们要到R平方进行修正。修正的方法: