基本原理
给定训练样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能的接近,异类样本点尽可能地远离;在对新样本进行分类的时候,将其投影到同样的这条线上面,根据投影点的位置来确定样本的类别。
公式推导过程
二维示意图如下:

二分类投影函数:y=wTx
类别i的原始中心点为:(Di表示属于类别i的点):mi=1ni∑x∈Dix
类别投影后的中心点为:m˜i=wTmi
衡量类别i投影后,类别点之间的分散程度(方差)为:s˜i=∑y∈Yi(y−m˜i)2
则LDA投影到w后的损失函数:J(w)=|m˜1−m˜2|2s˜12+s˜22·······1
优化目标:类别中心点之间的距离越远越好,同类别数据分散程度越小越好;所以损失函数J(w)的分子尽量小,分母尽量大
将m˜i和s˜i分别带入1式,得到如下方程:
J(w)=wT(m1−m2)(m1−m2)Tw∑y∈Y1wT(x−m1)(x−m1)Tw+∑y∈Y2wT(x−m2)(x−m2)Tw
定义:
类内散度:Si=∑y∈YiwT(x−mi)(x−mi)Tw
类间散度:SB=(m1−m2)(m1−m2)T
则优化目标J(w)为:
J(w)=wTSBwwTSww,其中Sw=S1+S2
令wTSww=1则上式等价于:
minw−wTSBw
s.t.wTSww=1
拉格朗日乘子法求解:
将有约束的优化问题变为无约束的问题,上述问题可以用拉格朗日乘子法求解:f(w)=−wTSBw−λ(1−wTSww)
对f(w)求导:
df(w)dw=2SBw−2λSww=0
得到:
SBw=λSww
因此,转化为一个求特征值的问题,我们求出第i大的特征向量,就是对应的wi了。