机器学习复习5-逻辑回归

逻辑回归

机器学习复习5-逻辑回归

Sigmoid函数

函数公式如下：
机器学习复习5-逻辑回归
函数中 x 无论取什么值，其结果值域都在 [0,-1] 的区间内，回想一下，一个分类问题就有两种答案，一种是“是”，一种是“否”，那0对应着“否”，1对应着“是”，那又有人问了，你这不是[0,1]的区间吗，怎么会只有0和1呢？这个问题问得好，我们假设分类的阈值是0.5，那么超过0.5的归为1分类，低于0.5的归为0分类，阈值是可以自己设定的。

好了，接下来我们把aX+b带入x中就得到了我们的逻辑回归的一般模型方程：机器学习复习5-逻辑回归

损失函数

机器学习复习5-逻辑回归
对数似然函数log loss
使用log函数可以在预测完全错误的情况下给予模型最大的惩罚力度，而完全正确的情况下没有惩罚。
公式中无论是上面还是下面，1是始终存在的。

逻辑回归的优点-重要

机器学习复习5-逻辑回归
4个优点，1可解释性强，2训练快，做好特征工程的话效果会很好，3输出是概率形式，而非0，1判定，4所以可以做ranking模型。

逻辑回归为什么要对特征进行离散化

机器学习复习5-逻辑回归
基本上有六点：

非线性-逻辑回归属于广义线性模型，从模型本身的角度来看，其学习能力是有限的，当特征离散化后，每个特征都会具有各自的权重，相当于引入了非线性因素，能够提高模型的学习能力。
速度快-离散稀疏特征向量间计算速度快且方便存储，易扩展。
鲁棒性-鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。离散化后的特征提高了模型的鲁棒性，如上图中的300岁年龄的例子。
特征组合-方便各种特征组合，进一步引入非线性。
稳定性-离散化后的特征提高了模型的稳定性，略微的变量的改变对整体因变量不会有过大的影响。
简化模型-离散化特征也是在简化模型，不容易过拟合。

逻辑回归的目标函数中增大L1正则化会是什么结果

L1由于其本身的特点可能会带来稀疏性的特征，可能使得某些参数为0。