逻辑回归
Sigmoid函数
函数公式如下:
函数中 x 无论取什么值,其结果值域都在 [0,-1] 的区间内,回想一下,一个分类问题就有两种答案,一种是“是”,一种是“否”,那0对应着“否”,1对应着“是”,那又有人问了,你这不是[0,1]的区间吗,怎么会只有0和1呢?这个问题问得好,我们假设分类的阈值是0.5,那么超过0.5的归为1分类,低于0.5的归为0分类,阈值是可以自己设定的。
好了,接下来我们把aX+b带入x中就得到了我们的逻辑回归的一般模型方程:
损失函数
对数似然函数log loss
使用log函数可以在预测完全错误的情况下给予模型最大的惩罚力度,而完全正确的情况下没有惩罚。
公式中无论是上面还是下面,1是始终存在的。
逻辑回归的优点-重要
4个优点,1可解释性强,2训练快,做好特征工程的话效果会很好,3输出是概率形式,而非0,1判定,4所以可以做ranking模型。
逻辑回归为什么要对特征进行离散化
基本上有六点:
- 非线性-逻辑回归属于广义线性模型,从模型本身的角度来看,其学习能力是有限的,当特征离散化后,每个特征都会具有各自的权重,相当于引入了非线性因素,能够提高模型的学习能力。
- 速度快-离散稀疏特征向量间计算速度快且方便存储,易扩展。
- 鲁棒性-鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。离散化后的特征提高了模型的鲁棒性,如上图中的300岁年龄的例子。
- 特征组合-方便各种特征组合,进一步引入非线性。
- 稳定性-离散化后的特征提高了模型的稳定性,略微的变量的改变对整体因变量不会有过大的影响。
- 简化模型-离散化特征也是在简化模型,不容易过拟合。
逻辑回归的目标函数中增大L1正则化会是什么结果
L1由于其本身的特点可能会带来稀疏性的特征,可能使得某些参数为0。