1. LDA原理:
线性判别分析,是数据挖掘中一种经典监督学习的分类和降维方法,但更多用来降维。其原理寻找一个投影矩阵,使得投影后的数据样本,同类相近,异类远离。其中心思想是最大化类间距离及最小化类内距离。
推导:
2. NCA原理:
近邻成分分析,属于度量学习和降维领域,原理是以马氏距离为距离度量的KNN为基础,通过不断优化KNN分类的准确性来学习转化矩阵,最终得到对原数据进行降维的转换矩阵。
推导过程:
3. PCA原理:
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
推导过程:
4. compare LDA with PCA:
相同:
两者均可以对数据进行降维。
两者在降维时均使用了矩阵特征分解的思想。
两者都假设数据符合高斯分布。
不同:
LDA是有监督的降维方法,而PCA是无监督的降维方法
LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
LDA除了可以用于降维,还可以用于分类。
LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。
5. compare NCA with PCA:
相同:
都可以用来降维
不同:
NCA除了降维还是一种度量学习的方法
NCA对数据分布没有假设,而PCA要求数据服从高斯分布
NCA基于KNN选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向