LR深入理解 - 爱码网

LR基础推导
LR前世今生
LR正则化

当模型的参数过多时，很容易遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式，通过在经验风险上加一个正则化项，来惩罚过大的参数来防止过拟合。
奥卡姆剃刀原理：能够很好地解释已知数据并且十分简单的才是最好的模型。
L1正则化：lasso，稀疏规则，参数稀疏，实现参数自动选择
学习地去掉一些无用信息的特征，将他们权重置0
L2正则化：Ridge 岭回归权值衰减
L1与L2不同：
1. L1:趋向使参数变为0，趋向使用少量特征，其他特征为0
2. L2:趋向选择更多特征，接近0
  
  而左边黑色矩形 ||w||1<C 和右边的圆形 ||w||2<C 是约束条件；相交的黑点就是最优解发生的地方。两者的区别可以从图中看出来，L1 正则化（左图）倾向于使参数变为0，因此能产生稀疏解。而 L2 使 w 接近0；
  
  总结：L1趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。
LR与线性回归
LR本质上也是线性回归，在特征到结果映射中加入一层sigmoid函数，先把特征线性求和，再用sigmoid预测
线性回归在整个实数域敏感
LR将预测限定为[0,1],只在0附近敏感，对z>>0和z<<0不敏感
LR与MaxEnd（最大熵）
LR是最大熵模型对应分类数为2的特殊情况
二项式分布最大熵模型等价二项指数形式（sigmoid）最大似然
多项式分布最大熵模型等价多项指数形式（softmax）最大似然
LR并行化
LR的并行化