【问题标题】:K-means Clustering: How to determine which variables influence a cluster?K-means 聚类:如何确定哪些变量会影响聚类?
【发布时间】:2020-10-29 01:02:46
【问题描述】:

我正在对 86 个不同的变量进行聚类分析,我设法使用 PCA 将其减少到 19 台 PC。使用 sk-learn 的 K-means 聚类算法,我得到了 10 个聚类。但是,我无法弄清楚哪些变量负责分离这些集群。我如何确定哪些变量负责某个集群。

【问题讨论】:

    标签: scikit-learn k-means unsupervised-learning


    【解决方案1】:

    PCA 创建主成分,本质上可以将其视为基础特征的一些线性组合,以帮助将维度从您的案例中的 86 个特征降低到方差最大的 19 个“主成分”。

    为了了解这些主要组件所基于的判别特征,您必须深入了解 PCA 在幕后所做的工作。简单地说,PCA 对 86 个特征的相关矩阵进行了特征分解。然后它将数据投影到一个新的向量空间,由 19 个具有最高特征值的特征向量组成。

    为了粗略估计 PCA 认为哪些特征是“主要的”,您可以手动对相关矩阵进行特征分解,并查看哪些特征具有最高特征值。但是,请记住,这不会是 1-1 的相关性,因为 PCA 使用这 86 个特征的某种线性组合来降低维度。但是,特征分解或许可以帮助您更好地理解数据。

    此外,如果您有兴趣,这里是对 PCA 及其与特征分解的关系的一个很好的解释:https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues

    【讨论】:

      猜你喜欢
      • 2010-12-20
      相关资源
      最近更新 更多