由于后面关于SVM和LR,logR的结合,这里有必要重新回顾一下LR,logR的一些相关内容。
Linear Regression
我们这里考虑的是平方误差,即
我们考察,即可以得到
这里关于的可逆性(概率)的讨论见PIA的矩阵分析讨论班的相关内容。
Logistic Regression
有时候不想分得过于绝对,而只是将结果集从上的连续量。继续用线性模型,即用来作为打分函数,引入光滑可微单调的sigmoid函数
接下来用likelihood的思想来给出模型,我们不妨设,即被正确分类的结果,如下图所示:
对于给定的数据集,其每一个数据点都分类正确的概率应该是如绿色框所示的乘积,
注意到图的左上角关于的结果,我们可以化简绿色框的公式如上图所示,但是由于我们并不知道真实的,所以我们此时用极大似然法来用来替代,注意到,如果我们用sigmoid函数的话,我们有,根据这个性质,我们可以化简有
为了方便,根据常用的一些套路对其做点一般同解的小变换,即将问题转换为如下最优化问题
接下来便是用GD法来求解这个非线性的最优化问题
SGD
随机梯度下降针对的主要是一种形如
这样函数的优化问题。
根据GD的办法我们有
但是由于要算一个,这个过程要过一遍所有的数据,即,SGD的思想是我们随机只取一个点,利用如下新的迭代公式
虽然这个操作很暴力,但是居然很多时候是能达到最优解的,不过关于这个的细节我也不是太清楚,包括收敛性,停止条件,为什么这样的选择在期望上是可以的等等诸多问题。
而Logistic Regression恰好满足这样的优化形式