包含两个类的数据集上的 LDA 和 PCA答案

【问题标题】：LDA and PCA on a dataset containing two classes包含两个类的数据集上的 LDA 和 PCA
【发布时间】：2018-03-03 14:46:44
【问题描述】：

我想比较在遵循 PCA 和 LDA 的数据集上运行逻辑回归的准确性。我使用的数据集是威斯康星州癌症数据集，它包含两类：恶性或良性肿瘤和 30 个特征。我已经对这些数据进行了 PCA，并且能够通过 10 个 PCA 获得良好的准确度分数。我知道 LDA 类似于 PCA。我的理解是，您计算每个类的每个特征的平均向量，计算散点矩阵，然后获取数据集的特征值。 LDA 是否类似于 PCA，因为我可以选择 10 个 LDA 特征值来更好地分离我的数据？我已经用 scikit learn 尝试了 LDA，但是它只给了我一个 LDA。这是因为我只有 2 个课程，还是我需要做一个额外的步骤？我想要 10 个 LDA，以便将其与我的 10 个 PCA 进行比较。这甚至可能吗？

【问题讨论】：

更适合交叉验证。不涉及任何编程。更多理论

标签： machine-learning pca

【解决方案1】：

实际上 LDA 和 PCA 都是线性变换技术：LDA 是有监督的，而 PCA 是无监督的（忽略类标签）。您可以将 PCA 视为一种找到最大方差方向的技术。LDA 是一种也关心类可分离性的技术（请注意，在这里，LD 2 将是一个非常糟糕的线性判别式）。请记住，LDA 对正态分布做出假设类和等类协方差（至少是多类版本；Rao 的广义版本）。

【讨论】：