【问题标题】:LDA and PCA on a dataset containing two classes包含两个类的数据集上的 LDA 和 PCA
【发布时间】:2018-03-03 14:46:44
【问题描述】:

我想比较在遵循 PCA 和 LDA 的数据集上运行逻辑回归的准确性。我使用的数据集是威斯康星州癌症数据集,它包含两类:恶性或良性肿瘤和 30 个特征。我已经对这些数据进行了 PCA,并且能够通过 10 个 PCA 获得良好的准确度分数。我知道 LDA 类似于 PCA。我的理解是,您计算每个类的每个特征的平均向量,计算散点矩阵,然后获取数据集的特征值。 LDA 是否类似于 PCA,因为我可以选择 10 个 LDA 特征值来更好地分离我的数据?我已经用 scikit learn 尝试了 LDA,但是它只给了我一个 LDA。这是因为我只有 2 个课程,还是我需要做一个额外的步骤?我想要 10 个 LDA,以便将其与我的 10 个 PCA 进行比较。这甚至可能吗?

【问题讨论】:

  • 更适合交叉验证。不涉及任何编程。更多理论

标签: machine-learning pca


【解决方案1】:

实际上 LDA 和 PCA 都是线性变换技术:LDA 是有监督的,而 PCA 是无监督的(忽略类标签)。您可以将 PCA 视为一种找到最大方差方向的技术。LDA 是一种也关心类可分离性的技术(请注意,在这里,LD 2 将是一个非常糟糕的线性判别式)。请记住,LDA 对正态分布做出假设类和等类协方差(至少是多类版本;Rao 的广义版本)。

【讨论】:

    猜你喜欢
    • 2020-09-18
    • 2021-03-24
    • 1970-01-01
    • 2012-08-24
    • 2016-01-26
    • 1970-01-01
    • 2017-04-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多