最大似然法和最小二乘法,最大后验法之间的关系

内容导读:
1.最大似然法
2.最小二乘法
3.最大后验法
4.最大似然法和最小二乘法的统一
5.最大似然法和最大后验法的关系

一.最大似然法

最大似然法认为,我们多次观察到的结果就是最可能发生的结果,如我们抛一百次硬币,前99次抛的都是带数字的一面朝上,假定带数字面为正面,那么第100次抛硬币时,正面朝上的概率是多少呢?
按照正常概率来讲,如果此硬币是正常硬币,那么第100次抛出时正面朝上的概率为1/2;
然而在最大似然法中,前99次抛出的都是正面朝上,那么第100次抛出时,正面朝上的概率则为1.
即,最大似然法认为,我们观察到的样本概率最大参数即为整体分布的参数.
在上次的LR文章中,我们知道了最大似然的假设函数为: $P(y∣x;θ)=h _{θ} (x) ^{y} (1−h θ (x)) ^{1−y}$
其损失函数 $L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)$

二.最小二乘法

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是：构造误差平方和函数，对其求偏导，让误差平方和函数取得最小值的参数就是模型参数。
最小二乘法本质上是一种参数估计方法，它既可以用于线性回归模型的参数估计，也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法，但最小二乘法≠线性回归。

三.最大后验法

前期中,我们讲过最小二乘法正则化的两种形式:
L1正则下的最小二乘估计:是曼哈顿距离的最优解，也称Lasso回归：

$\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda|\theta|}}$

L2正则下的最小二乘估计:是欧式距离的最优解，也称Ridge回归：

$\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda\theta^2}}$

Ridge是高斯先验下的最大后验估计，而Lasso是拉普拉斯先验下的最大后验估计。
对于Ridge回归的目标函数，看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去，还原成带限制条件的凸优化问题，那么就是

$\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 \theta^2 \le r$

同理，Lasso回归可以变化为

$\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 |\theta|\le r$
用图像表示为:
最大似然法和最小二乘法,最大后验法之间的关系
左图为Ridge回归,右图为Lasso回归.

四.最大似然法和最小二乘法的统一

我们知道，模型的似然函数是

$L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)$

同时，有 $y_{i} \sim {N}(f_\theta(x_{i}), \sigma^{2})$
那么可以得到

$L(\theta)= -\frac{1}{2\sigma^2}\sum_{i}(y_i-f_\theta(x_i))^2-N\log\sigma-\frac{N}{2}\log2\pi$

因此，去掉后面两项不包含 $\theta$ 的常数项，模型参数 $\theta$ 的最大似然估计 $\max_\theta {L(\theta)}$ ，
就等价于最小二乘估计 $\min_\theta {\sum_i(y_i-f_\theta(x_i))^2}$

即在总体或样本参数服从于正态分布的情况下,最大似然法和最小二乘法会趋于统一.
最小二乘（Least Square）的解析解可以用Gaussian分布以及最大似然估计求得

五.最大似然法和最大后验法的关系

$f(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilon$

其中 $x\in{R^{1{\times}{d}}},w\in{R^{1{\times}{d}}}$ ,误差 $\varepsilon{\in}{R}$

当前已知 $X={({x_1}...{x_n})^T}{\in}{R^{n{\times}{d}}},y{\in}{R^{n{\times}{1}}}$ ,如何求w呢?
1.假设 ${\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})，{w_i}{\sim}N(0,{\tau^2})$ ，那么用最大后验估计推导：

$\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2}) ---- (12)$

$\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}----(13)$

$\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2----(14)$

公式(14)式就是Ridge回归.

2.假设 ${\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})，{w_i}{\sim}Lapace(0,b)$ ，同样采用后验估计推导：

$\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau}) ----(15)$

$\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}} ---- (16)$

$\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}----(17)$

公式（17）为Lasso回归.