K-means 聚类：如何确定哪些变量会影响聚类？答案

【问题标题】：K-means Clustering: How to determine which variables influence a cluster?K-means 聚类：如何确定哪些变量会影响聚类？
【发布时间】：2020-10-29 01:02:46
【问题描述】：

我正在对 86 个不同的变量进行聚类分析，我设法使用 PCA 将其减少到 19 台 PC。使用 sk-learn 的 K-means 聚类算法，我得到了 10 个聚类。但是，我无法弄清楚哪些变量负责分离这些集群。我如何确定哪些变量负责某个集群。

【问题讨论】：

标签： scikit-learn k-means unsupervised-learning

【解决方案1】：

PCA 创建主成分，本质上可以将其视为基础特征的一些线性组合，以帮助将维度从您的案例中的 86 个特征降低到方差最大的 19 个“主成分”。

为了了解这些主要组件所基于的判别特征，您必须深入了解 PCA 在幕后所做的工作。简单地说，PCA 对 86 个特征的相关矩阵进行了特征分解。然后它将数据投影到一个新的向量空间，由 19 个具有最高特征值的特征向量组成。

为了粗略估计 PCA 认为哪些特征是“主要的”，您可以手动对相关矩阵进行特征分解，并查看哪些特征具有最高特征值。但是，请记住，这不会是 1-1 的相关性，因为 PCA 使用这 86 个特征的某种线性组合来降低维度。但是，特征分解或许可以帮助您更好地理解数据。

此外，如果您有兴趣，这里是对 PCA 及其与特征分解的关系的一个很好的解释：https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues

【讨论】：