机器学习线性回归算法原理推导

一个例子

数据：工资和年龄（2个特征）
目标：预测银行会贷款给我多少钱（标签）
考虑：工资和年龄都会影响最终银行贷款的结果，那么他们各自会有多大的影响呢？（参数）
样本数据如下图所示：

通俗解释

X1，X2就是我们的两个特征（工资，年龄），Y是银行最终会借给我们多少钱
找到合适的一条线（想象一个高维）来最好的拟合我们的数据点

数学公式

假设 $\theta_1$ 是年龄的参数， $\theta_2$ 是工资的参数
拟合的平面： $h_\theta(x)=\theta_0+\theta_1(x_1)+\theta_2$ ( $x_2$ )（ $\theta_0$ 是偏置项）
整合后： $h_\theta(x)=\sum_{n=1}^N{x_n\theta_n}=\theta^Tx$ （其中 $x_0$ 全为1）

误差

真实值和预测值之间肯定是存在差异的（用 $\epsilon$ 来表示该误差）
对于每个样本 $i$ ： $y^i=\theta^Tx^i+\epsilon^i$
误差 $\epsilon^i$ 是独立并且具有相同的分布，并且服从均值为0，方差为 $\theta^2$ 的高斯分布
独立：张三和李四一起来贷款，他俩没关系
同分布：他俩都来得是我们假定的这家银行
高斯分布：银行可能会多给，也可能会少给，但是绝大多数情况下这个浮动不会太大，极小情况下浮动会比较大，符合正常情况（值特殊时是正太分布）
预测值和误差： $y^i=\theta^Tx^i$ + $\epsilon^i ——（1）$
由于误差服从高斯分布： $p(\epsilon^i)=\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(\epsilon^i)^2}{2\sigma^2}} ——（2）$
将（1）式代入（2）式： $p(y^i|x^i;\theta)=\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(y^i-\theta^Tx^i)^2}{2\sigma^2}}$
似然函数： $L(\theta)=\prod_{i=1}^mp(y^i|x^i;\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(y^i-\theta^Tx^i)^2}{2\sigma^2}}$
- 解释：什么样的参数跟我们的数据组合后恰好是真实值
对数似然： $\log L(\theta)=\log \prod_{i=1}^mp(y^i|x^i;\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(y^i-\theta^Tx^i)^2}{2\sigma^2}}$
- 解释：乘法难解，加法就容易了，对数里面乘法可以转换成加法
- 展开化简： $\sum_{i=1}^m \log \frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(y^i-\theta^Tx^i)^2}{2\sigma^2}}=m\log \frac{1}{\sqrt{2π}\sigma}- \frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2$
目标：让似然函数（对数变换后也一样）越大越好 $J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2（最小二乘法）$
目标函数： $J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2=\frac{1}{2}(X\theta-y)^T(X\theta-y)$
求偏导： $\nabla_\theta=\nabla_\theta(\frac{1}{2}(X\theta-y)^T(X\theta-y))=\nabla_\theta(\frac{1}{2}(\theta^TX^T-y^T)(X\theta-y))$
$=\nabla_\theta(\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty))$
$=\frac{1}{2}(2X^TX\theta-X^Ty-(y^TX)^T)=X^TX\theta-X^Ty$
令偏导等于0： $\theta=\frac{X^Ty}{X^TX}$

评估方法

最常用的评估项 $R^2:1-\frac{\sum_{i=1}^m(\hat y_i-y_i)^2(残差平方和)}{\sum_{i=1}^m(y_i-\overline y)^2(类似方差项)}$
$R^2$ 的取值越接近于1，我们认为模型拟合的越好
$R^2$ 的取值越接近于0，我们认为模型拟合的不好