线性回归（一）

1. 概念理解

例如：我们去银行办理信用卡，那么假设银行是根据我们的年龄和工资水平进行额度授权的，那么也就是说，年龄和工资按照一定的权重比例来计算，最终是可以得到额度的。以下为实际数据样本的部分（以下数据非真实数据）。

现在我们要根基样本设计模型来预测授信额度，以X1表示年龄，X2表示特征，Y表示预测的额度，我们将这些实际样本以点来表示，那么我们可以找到一条线（一个特征时）或一个面（多特征）来拟合我们的数据点，也就是最接近实际值得点，和我们数学中的期望值类似。

线性回归（一）

2. 拟合平面

如上图所示，我们将所有数据点拟合的平面叫拟合平面。假设θ1和θ2分别表示年龄和工资的权重参数，那么拟合平面的公式为：

线性回归（一）

其中θ 0是偏置顶，我们的平面是非原点开始的。为了便于理解和计算，假设X0=1，那么以上公式可以变为：

线性回归（一）

对于多元条件我们可以整合为：

线性回归（一）

3. 误差

我们知道真实点和拟合平面比可能完全重合，那么拟合值和真实值之间必然会存在误差，一般用ε表示，于是得到得那么拟合值+误差就=真实值

线性回归（一）

(1)样本之间是独立的，例如张三和李四办的信用卡额度是独立，之间没有关系。

(2)样本是同分布的，我们的分析基于所有人在同一家银行办理信用卡。

(3) 样本遵循一定的原则，但误差是不规律的，额度有可能少，也有可能多，但总体上符合误差值越大的样本数越少，也就是大部分人的样本误差应该在一定范围内，越大的误差出现的概率越小。

因此，我们说，误差是符合高斯分布（正态分布）的。

线性回归（一）

由于误差服从高斯分布，可以得出：

线性回归（一）

于是：

线性回归（一）

公式左侧表示在θ 给定的时候，给一个x值，就对应给一个y值