对于很多学理工的同学来说,最小二乘这个概念应该都不陌生。
但是你有没有想过,这里的“二乘”是什么意思?
其实很简单,“二乘”就是“平方”,在英文中这个位置的单词就是Squares。
该方法的基本原理有很好的解释了[1]。
总结成一句话来说就是:该方法通过最小误差的平方和寻找数据的最佳函数匹配。
以最简单的线性模型为例:
当三个散点到直线的误差的平方和最小时,认为该直线最能代表散点的趋势。
不过你会不会有这样的疑虑:
为什么是平方和?直接用绝对值的和不行么?
答案是可以的!
而且这种方法还有个名字,叫“最小一乘法”
但是为什么这个看似定义、原理都更简单的方法没有成为主流呢?
1.为什么是“最小二乘”?
(1)“最小一乘法”的解不一定唯一,举个例子[3]:
L1和L2都符合误差绝对值最小
使用最小一乘准则,可以构造出无数条样本回归直线,只要这些直线同时与AB、CD相交即可。
(2)方便求解
虽然在定义上最小一乘法更直观
但是在数学求解上最小二乘法要更简单,这点在线性回归上就有很明显的体现了。
想要详细了解的可以看看这篇文章,这里不作为重点展开了。
(3)假定了误差服从正态分布的前提
还是对于线性分布的散点(假设有3个),他们相对理想的线性模型的误差可以写成: 。
我们假设这些误差服从正态分布。
为什么是正态分布?简单来说是因为他在生活中最常见。
回忆一下,标准正态分布的公式为:
就是观察到某散点与直线的误差为
概率。
根据极大似然估计的原理,三个数据点的联合概率就是:
想让 P 的值最大,也就是让 的值最小。
这不就是最小二乘么?
所以说使用最小二乘法做线性回归是建立在残差为正态分布的假设上的。
那么如果假设残差不是正态分布,就不能用最小二乘了么?——是这样的。
2.最小二乘的短板
上边都是关于最小二乘的有点,但是他也有个明显的缺点:
当数据点中存在一个明显的离群值时,该影响会被最小二乘中的“平方”放大,对最终回归结果产生更大的影响。
被离群值带跑偏的回归模型
[1] 最小二乘法的本质是什么?
[3] 最小一乘法与最小二乘法:基于例证的比较
[4]http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
小小的冒个泡证明博主还在更新