从贝叶斯角度看正则化

Regularization: A Bayesian point of view

Introduction

正则化(regularization)是防止模型过拟合(overfitting)的有效方式之一。常用的正则化包括L1正则和L2正则，我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归，使得参数稀疏化，倾向于产生稀疏模型，是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。而L2正则化对应岭回归，倾向于选择使各个参数尽可能小的模型，L2正则化更平滑，在可解释性方面差于L1正则化，但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。

从贝叶斯角度看正则化

Linear regression

Ordinary linear regression采用均方误差，hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差（观测值与预测值的残差平方）来训练模型参数，即
$w = \mathop {\arg \min }\limits_w \sum\limits_{{\rm{i}} = 1}^m {{{({y^{(i)}} - {w^T}{x^{(i)}})}^2}}$
下面我们假设第i个样本上的误差 ${^{(i)}} = {y^{(i)}} - {w^T}{x^{(i)}}$ 服从gaussian分布，即
$p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \delta^{2}}\right)$
于是
$p\left(y^{(i)} | x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right)$
由最大似然估计（MLE）
$\begin{aligned} L(w) &=p(\vec{y} | X ; w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \end{aligned}$
取对数有：
$\begin{aligned} l(w) &=\log L(w) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)}{2 \delta^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}-\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2} \end{aligned}$
最大化该似然即为最小化第二项均方损失，即
$w_{M L E}=\arg \min _{w} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}$
上式说明，在假设了数据集的误差服从Gaussian分布的条件下，通过最大似然估计(MLE)最大化似然函数（3）等价于最小化平方损失（1），进一步地我们可以得到一个普遍的结论：最小化经验损失（empirical loss）对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的，很容易产生过拟合，下面我们对参数w引入先验分布，以此来降低模型的复杂度。

Ridge regression

我们对参数 $w$ 引入协方差为$\alpha $ 的Gaussian先验，即
$p(w_j)=\frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right)$
由于引入了先验分布，采用最大后验估计（MAP）
$\begin{aligned} L(w) &=p(\vec{y} | X ; w) p(w) \\ &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) p(w) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi \delta}} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \prod_{j=1}^{n} \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{\left(w^{(j)}\right)^{2}}{2 \alpha}\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \delta} \exp \left(-\frac{\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}}{2 \delta^{2}}\right) \frac{1}{\sqrt{2 \pi \alpha}} \exp \left(-\frac{w^{T} w}{2 \alpha}\right) \end{aligned}$
取对数后有
$\begin{aligned} l(w) &=\log L(w) \\ &=m \log \frac{1}{\sqrt{2 \pi} \delta}+n \log \frac{1}{\sqrt{2 \pi \alpha}}-\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}-\frac{1}{2\alpha} w^{T} w \\ \Rightarrow & w_{M A P_{\text {Gussian}}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}}\sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2\alpha} w^{T} w\right) \end{aligned}$
等价于
$J(w)=\frac{1}{n}\left\|y-w^{T} X\right\|_{2}+\lambda\|w\|_{2}$
上式说明，L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力，也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关，L2正则倾向于综合两者的影响，给影响大的特征赋予高的权重；而L1正则倾向于选择影响较大的参数，而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则，但 L1 正则便于产生稀疏模型，便于进行特征选择。

LASSO

Laplace分布
$f(x | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right)$
从贝叶斯角度看正则化

同理可以推导出
$w_{M A P_{L a p a c e}}=\arg \min _{w}\left(\frac{1}{2\delta^{2}} \sum_{i=1}^{m}\left(y^{(i)}-w^{T} x^{(i)}\right)^{2}+\frac{1}{2b^{2}}\|w\|_{1}\right)$
即L1正则化等价于对参数引入Laplace先验分布

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题，不具有解析解，它的优良性质是能产生稀疏性，导致 w中许多项变成零。

Summary

正则化参数等价于对参数引入 先验分布，使得模型复杂度变小（缩小解空间），对于噪声以及outliers的鲁棒性增强（泛化能力）。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计，其中 正则化项 对应后验估计中的 先验信息 ，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计的形式。

参考http://charleshm.github.io/2016/03/Regularized-Regression/#fn:5