1. 概念理解
例如:我们去银行办理信用卡,那么假设银行是根据我们的年龄和工资水平进行额度授权的,那么也就是说,年龄和工资按照一定的权重比例来计算,最终是可以得到额度的。以下为实际数据样本的部分(以下数据非真实数据)。
| 年龄 | 工资 | 额度 |
|---|---|---|
| 28 | 2500 | 5000 |
| 35 | 6200 | 5000 |
| 26 | 20000 | 32000 |
| 52 | 1500 | 1800 |
| ... | ... | ... |
现在我们要根基样本设计模型来预测授信额度,以X1表示年龄,X2表示特征,Y表示预测的额度,我们将这些实际样本以点来表示,那么我们可以找到一条线(一个特征时)或一个面(多特征)来拟合我们的数据点,也就是最接近实际值得点,和我们数学中的期望值类似。
2. 拟合平面
如上图所示,我们将所有数据点拟合的平面叫拟合平面。假设θ1和θ2分别表示年龄和工资的权重参数,那么拟合平面的公式为:
其中θ 0是偏置顶,我们的平面是非原点开始的。为了便于理解和计算,假设X0=1,那么以上公式可以变为:
对于多元条件我们可以整合为:
3. 误差
我们知道真实点和拟合平面比可能完全重合,那么拟合值和真实值之间必然会存在误差,一般用ε表示,于是得到得那么拟合值+误差就=真实值
(1)样本之间是独立的,例如张三和李四办的信用卡额度是独立,之间没有关系。
(2)样本是同分布的,我们的分析基于所有人在同一家银行办理信用卡。
(3) 样本遵循一定的原则,但误差是不规律的,额度有可能少,也有可能多,但总体上符合误差值越大的样本数越少,也就是大部分人的样本误差应该在一定范围内,越大的误差出现的概率越小。
因此,我们说,误差是符合高斯分布(正态分布)的。
由于误差服从高斯分布,可以得出:
于是:
公式左侧表示在θ 给定的时候,给一个x值,就对应给一个y值