【发布时间】:2020-10-29 01:02:46
【问题描述】:
我正在对 86 个不同的变量进行聚类分析,我设法使用 PCA 将其减少到 19 台 PC。使用 sk-learn 的 K-means 聚类算法,我得到了 10 个聚类。但是,我无法弄清楚哪些变量负责分离这些集群。我如何确定哪些变量负责某个集群。
【问题讨论】:
标签: scikit-learn k-means unsupervised-learning
我正在对 86 个不同的变量进行聚类分析,我设法使用 PCA 将其减少到 19 台 PC。使用 sk-learn 的 K-means 聚类算法,我得到了 10 个聚类。但是,我无法弄清楚哪些变量负责分离这些集群。我如何确定哪些变量负责某个集群。
【问题讨论】:
标签: scikit-learn k-means unsupervised-learning
PCA 创建主成分,本质上可以将其视为基础特征的一些线性组合,以帮助将维度从您的案例中的 86 个特征降低到方差最大的 19 个“主成分”。
为了了解这些主要组件所基于的判别特征,您必须深入了解 PCA 在幕后所做的工作。简单地说,PCA 对 86 个特征的相关矩阵进行了特征分解。然后它将数据投影到一个新的向量空间,由 19 个具有最高特征值的特征向量组成。
为了粗略估计 PCA 认为哪些特征是“主要的”,您可以手动对相关矩阵进行特征分解,并查看哪些特征具有最高特征值。但是,请记住,这不会是 1-1 的相关性,因为 PCA 使用这 86 个特征的某种线性组合来降低维度。但是,特征分解或许可以帮助您更好地理解数据。
此外,如果您有兴趣,这里是对 PCA 及其与特征分解的关系的一个很好的解释:https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
【讨论】: