logistic Regression & Regularization

Logistic回归的主要用途：
寻找危险因素：寻找某一疾病的危险因素等；
预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；

自变量既可以是连续的，也可以是分类的。

常规步骤

寻找h函数（即hypothesis）：需要找的分类函数，它用来预测输入数据的判断结果；
构造Cost函数（损失函数）：该函数表示预测的输出（h）与训练数据类别（y）之间的偏差；
构造J函数（J(θ)函数）：将Cost求和或者求平均，表示所有训练数据预测值与实际类别的偏差。
想办法使得J函数最小并求得回归参数（θ）。
构造预测函数h：
下面左图是一个线性的决策边界，右图是非线性的决策边界。
对于线性边界的情况，边界形式如下：

构造预测函数为：

函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

构造Cost函数

Cost函数和J函数如下，它们是基于最大似然估计推导得到的。

下面详细说明推导的过程：

（1）式综合起来可以写成：

logistic Regression & Regularization

取似然函数为：

logistic Regression & Regularization

对数似然函数为：

logistic Regression & Regularization

最大似然估计就是求使 logistic Regression & Regularization 取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。但是，在Andrew Ng的课程中将取为下式，即：

logistic Regression & Regularization

因为乘了一个负的系数-1/m，所以取 logistic Regression & Regularization 最小值时的θ为要求的最佳参数。

梯度下降法求的最小值

θ更新过程：

上式求解过程中用到如下的公式：

logistic Regression & Regularization

θ更新过程可以写成：

logistic Regression & Regularization

向量化Vectorization

约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：

g(A)的参数A为一列向量，所以实现g函数时要支持列向量作为参数，并返回列向量。由上式可知 logistic Regression & Regularization 可由一次计算求得。

θ更新过程可以改为：

logistic Regression & Regularization

综上所述，Vectorization后θ更新的步骤如下：

（1）求 logistic Regression & Regularization ；

（2）求 logistic Regression & Regularization ；

（3）求 logistic Regression & Regularization 。

代码分析

图4中是《机器学习实战》中给出的部分实现代码。

logistic Regression & Regularization

图4

sigmoid函数就是前文中的g(z)函数，参数inX可以是向量，因为程序中使用了Python的numpy。

gradAscent函数是梯度上升的实现函数，参数dataMatin和classLabels为训练数据，23和24行对训练数据做了处理，转换成numpy的矩阵类型，同时将横向量的classlabels转换成列向量labelMat，此时的dataMatrix和labelMat就是（18）式中的x和y。alpha为学习步长，maxCycles为迭代次数。weights为n维（等于x的列数）列向量，就是（19）式中的θ。

29行的for循环将更新θ的过程迭代maxCycles次，每循环一次更新一次。对比3.4节最后总结的向量化的θ更新步骤，30行相当于求了A=x.θ和g(A)，31行相当于求了E=g(A)-y，32行相当于求θ:=θ-α.x'.E。所以这三行代码实际上与向量化的θ更新步骤是完全一致的。