- LR基础推导
LR前世今生
- LR正则化
当模型的参数过多时,很容易遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式,通过在经验风险上加一个正则化项,来惩罚过大的参数来防止过拟合。
奥卡姆剃刀原理:能够很好地解释已知数据并且十分简单的才是最好的模型。
L1正则化:lasso,稀疏规则,参数稀疏,实现参数自动选择
学习地去掉一些无用信息的特征,将他们权重置0
L2正则化:Ridge 岭回归 权值衰减
L1与L2不同:
- L1:趋向使参数变为0,趋向使用少量特征,其他特征为0
-
L2:趋向选择更多特征,接近0
而左边黑色矩形 ||w||1<C 和右边的圆形 ||w||2<C 是约束条件;相交的黑点就是最优解发生的地方。两者的区别可以从图中看出来,L1 正则化(左图)倾向于使参数变为0,因此能产生稀疏解。而 L2 使 w 接近0;
总结:L1趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。
- LR与线性回归
LR本质上也是线性回归,在特征到结果映射中加入一层sigmoid函数,先把特征线性求和,再用sigmoid预测
线性回归在整个实数域敏感
LR将预测限定为[0,1],只在0附近敏感,对z>>0和z<<0不敏感 -
LR与MaxEnd(最大熵)
LR是最大熵模型对应分类数为2的特殊情况
二项式分布最大熵模型等价二项指数形式(sigmoid)最大似然
多项式分布最大熵模型等价多项指数形式(softmax)最大似然
-
LR并行化
LR的并行化
相关文章: