Regularization: A Bayesian point of view
Introduction
正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。

Linear regression
Ordinary linear regression采用均方误差,hypothesis $f(x) = {w^T}x $ ,通过最小化均方误差(观测值与预测值的残差平方)来训练模型参数,即
w=wargmini=1∑m(y(i)−wTx(i))2
下面我们假设第i个样本上的误差(i)=y(i)−wTx(i) 服从gaussian分布,即
p(ϵ(i))=2πδ1exp(−2δ2(ϵ(i))2)
于是
p(y(i)∣x(i);θ)=2πδ1exp(−2δ2(y(i)−wTx(i))2)
由最大似然估计(MLE)
L(w)=p(y∣X;w)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)
取对数有:
l(w)=logL(w)=logi=1∏m2πδ1exp(−2δ2(y(i)−wTx(i)))=i=1∑mlog2πδ1exp(−2δ2(y(i)−wTx(i))2)=mlog2πδ1−2δ21i=1∑m(y(i)−wTx(i))2
最大化该似然即为最小化第二项均方损失,即
wMLE=argwmini=1∑m(y(i)−wTx(i))2
上式说明,在假设了数据集的误差服从Gaussian分布的条件下,通过最大似然估计(MLE)最大化似然函数(3)等价于最小化平方损失(1),进一步地我们可以得到一个普遍的结论:最小化经验损失(empirical loss)对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的,很容易产生过拟合,下面我们对参数w引入先验分布,以此来降低模型的复杂度。
Ridge regression
我们对参数w 引入协方差为$\alpha $ 的Gaussian先验,即
p(wj)=2πα1exp(−2α(w(j))2)
由于引入了先验分布,采用最大后验估计(MAP)
L(w)=p(y∣X;w)p(w)=i=1∏mp(y(i)∣x(i);θ)p(w)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)j=1∏n2πα1exp(−2α(w(j))2)=i=1∏m2πδ1exp(−2δ2(y(i)−wTx(i))2)2πα1exp(−2αwTw)
取对数后有
l(w)⇒=logL(w)=mlog2πδ1+nlog2πα1−2δ21i=1∑m(y(i)−wTx(i))2−2α1wTwwMAPGussian=argwmin(2δ21i=1∑m(y(i)−wTx(i))2+2α1wTw)
等价于
J(w)=n1∥∥y−wTX∥∥2+λ∥w∥2
上式说明,L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则,但 L1 正则便于产生稀疏模型,便于进行特征选择。
LASSO
Laplace分布
f(x∣μ,b)=2b1exp(−b∣x−μ∣)

同理可以推导出
wMAPLapace=argwmin(2δ21i=1∑m(y(i)−wTx(i))2+2b21∥w∥1)
即L1正则化等价于对参数引入Laplace先验分布
该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题,不具有解析解,它的优良性质是能产生稀疏性,导致 w中许多项变成零。
Summary
正则化参数等价于对参数引入 先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及outliers的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息 ,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。
参考http://charleshm.github.io/2016/03/Regularized-Regression/#fn:5