由于后面关于SVM和LR,logR的结合,这里有必要重新回顾一下LR,logR的一些相关内容。

Linear Regression

我们这里考虑的是平方误差,即

minwEin=1N||Xwy||2,

我们考察Ein=0,即可以得到
(LXTML笔记)回顾LR,logR,SGD
这里关于XTX的可逆性(概率)的讨论见PIA的矩阵分析讨论班的相关内容。

Logistic Regression

有时候不想分得过于绝对,而只是将结果集从{1,+1}[0,1]上的连续量。继续用线性模型,即用s=wTx来作为打分函数,引入光滑可微单调的sigmoid函数
(LXTML笔记)回顾LR,logR,SGD

接下来用likelihood的思想来给出模型,我们不妨设f(x)=P(+1|x),即x被正确分类的结果,如下图所示:
(LXTML笔记)回顾LR,logR,SGD
对于给定的数据集D,其每一个数据点都分类正确的概率应该是如绿色框所示的乘积,
(LXTML笔记)回顾LR,logR,SGD
注意到图的左上角关于P(y|x)的结果,我们可以化简绿色框的公式如上图所示,但是由于我们并不知道真实的f,所以我们此时用极大似然法来用h来替代f,注意到,如果我们用sigmoid函数的话,我们有h(x)=1h(x),根据这个性质,我们可以化简有
(LXTML笔记)回顾LR,logR,SGD
为了方便,根据常用的一些套路对其做点一般同解的小变换,即将问题转换为如下最优化问题
(LXTML笔记)回顾LR,logR,SGD
接下来便是用GD法来求解这个非线性的最优化问题

SGD

随机梯度下降针对的主要是一种形如

f(w)=i=1nfi(w,xi,yi),

这样函数的优化问题。
根据GD的办法我们有
wi+1=wiαi=1nwfi(w,xi,yi),

但是由于要算一个,这个过程要过一遍所有的数据,即O(N),SGD的思想是我们随机只取一个点(xj,yj),利用如下新的迭代公式
wi+1=wiαwfj(w,xj,yj),

虽然这个操作很暴力,但是居然很多时候是能达到最优解的,不过关于这个的细节我也不是太清楚,包括收敛性,停止条件,为什么这样的选择在期望上是可以的等等诸多问题。
而Logistic Regression恰好满足这样的优化形式
(LXTML笔记)回顾LR,logR,SGD
(LXTML笔记)回顾LR,logR,SGD

相关文章: