课程笔记第六篇
本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。
第二章第七节下-LDA(线性判别方法)之详细例子:
PCA做法:
使用matlab直接计算即可。
Z矩阵为协方差矩阵,计算方法直接百度,有很多文章都写得很详细。
V矩阵为特征向量矩阵,D对角线为特征值,毫无疑问应该选择特征值最大的那个的对应的特征向量的方向作为投影的线方向。
LDA做法:
LDA区分开了两个类别的。
图:
LDA选择的方向散度要窄一些。
LDA用于多分类的问题:
lda可以很容易地被扩展到多类问题上,
比如三类问题,
要计算三个均值的均值,且要乘一个该类的元素点总数,最后还要做一下加权平均一下。
三分类问题是降维到二维上,即几类就投影到几减一维上。
LDA的局限:
线性代数里的秩(rank),S小b的这个矩阵的秩最大就是C-1;
奇异矩阵本身不存在逆。不是满秩的矩阵算不了逆。比如一个图像,256*256,但是没有那么多的图像作为样本,纬度大于样本数,就会变成奇异矩阵。这个问题就可能要先用PCA这样的方法先去降维,然后再用lda。
三种存在问题的情况。
LDA在用的时候均值千万不能相等。