1 Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?
2 Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?
2.1 牛顿法
牛顿法的核心思想是”利用函数在当前点的一阶导数,以及二阶导数,寻找搜寻方向“(回想一下更简单的梯度下降法,她只用了当前点一阶导数信息决定搜索方向)。
- 一阶导数∇f(x)当前搜寻点 与 ∇f(x)=0连线的方向。
- 当前点泰勒展开(舍弃二阶以上项)函数中 当前搜寻点 与 泰勒展开函数极小值连线方向。
2.2拟牛顿算法
上述的牛顿法需要计算Hessian矩阵的逆矩阵,运算复杂度太高。在动辄百亿、千亿量级特征的大数据时代,模型训练耗时太久。因此,很多牛顿算法的变形出现了,这类变形统称拟牛顿算法。拟牛顿算法的核心思想用一个近似矩阵B替代逆Hessian矩阵H−1。不同算法的矩阵B的计算有差异,但大多算法都是采用迭代更新的思想在tranning的没一轮更新矩阵B。
3. 为什么不用线性回归做分类?
线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类的;比如要分析性别、年龄、身高、饮食习惯对于体重的影响,如果这个体重是属于实际的重量,是连续性的数据变量,这个时候就用线性回归来做;如果将体重分类,分成了高、中、低这三种体重类型作为因变量,则采用logistic回归。
4.Logistic回归为什么不像线性回归那样用平方损失函数?
逻辑回归函数一般用在分类问题上。实际上也可以用最小二乘,但是最小二乘得到的权重效果比较差。如果用最小二乘法,目标函数就是差值的平方和,是非凸的,不容易求解,很容易陷入到局部最优。如果用最大似然估计,目标函数就是关于(w,b)的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。
5. Logistic回归的参数为什么不像线性回归那样直接公式求解?
logistic回归似然函数的偏导数为非线性函数,参数估计需用非线性方程组的数值法求解,而不能像线性回归那样直接公式求解。
6.Logistic回归与线性回归有哪些联系?
线性回归和logistic回归都属于广义线性模型,logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,然后使用函数g(z)作为假设函数来预测,g(z)可以将连续值映射到0和1上,则可以认为logistic回归的输入是线性回归的输出,将逻辑斯蒂函数(Sigmoid曲线)作用于线性回归的输出得到输出结果。
区别:
- 线性回归使用的是最小化平方误差损失函数,逻辑回归使用对数似然函数进行参数估计。
- 线性回归用来预测,逻辑回归用来分类。
- 线性回归是拟合函数,逻辑回归是预测函数。
- 最大的区别就在于他们的因变量不同。