LR
线性回归
先来看看最基础的线性回归问题,目的是学习一个线性模型以尽可能准确的预测连续的输出值。既最符合数据的
学习策略为使预测值与真实值之间的均方误差最小
误差函数对w和b的导数为0即可得到最优解
以及(推导w时要用b的公式回代)
如果加入L1和L2正则项的话就成了Lasso回归和岭回归。
对数几率回归
如果再有一个函数能把线性回归的预测值映射到[0,1],那么我们可以根据一个阈值划分输出达到用线性回归完成分类任务的目的。
而对数几率函数
就是满足条件且性质良好的任意阶可导的s型函数。把上式的z看作线性回归输出wx+b
的话就得到了LR模型。通过式子变形可得
既是用一个线性回归去拟合 x为正反例样本几率的对数。
LR学习策略
我们假设数据分布服从伯努利假设,然后用极大似然估计来学习LR的两个参数w和b。
其中的w为原w和b的增广,该函数为凸函数,利用梯度下降或者牛顿法求解即可。
LR损失函数
虽然长得像交叉熵(LR也能从最小熵角度出发推导),但是根据上述推导过程应该叫做极大似然损失。
LR多分类
将LR运用于多分类的话,为每个人分配概率,就成了softmax了 那么Softmax 回归 vs. k 个二元分类器哪个更适合多分类?
- 如果待分类的类别是互斥的,更适于选择softmax回归分类器 。
- 如果待分类的类别不是互斥的,更适合多个logistic回归分类器。
LR相关面试题
1. LR的优缺点
优点:形式简单,速度快,输出概率值方便调整阈值cutoff
缺点:过于简单,非线性可分场景不适用,很难处理数据不平衡
2.线性回归的共线性怎么解决
共线性导致求出系数的方差变大而且X矩阵不满秩,可以用PCA等降维方法,或者加了L1,L2正则
3.为什么LR要做特征组合
逻辑回归模型属于线性模型,线性模型不能很好处理非线性特征,特征组合可以引入非线性特征,提升模型的表达能力。
4.逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响
不影响,但是权重之间会平摊或者相互之间抵消。
5.为什么我们还是会在训练的过程当中将高度相关的特征去掉?
去掉高度相关的特征会让模型的可解释性更好而且可以大大提高训练的速度。如果模型当中有很多特征高度相关的话,就算损失函数本身收敛了,但实际上参数是没有收敛的,这样会拉低训练的速度。其次是特征多了,本身就会增大训练的时间。
6.为什么LR特征离散化
离散化之后鲁棒性和泛化性都更好,运算速度也变快,也方便特征交叉。
7.LR与最大熵模型的关系
最大熵与softmax等价,进而二分类问题时与LR等价