如何使用 sklearn k-means 聚类根据彼此的相关性对 * 特征 * 进行聚类答案

【问题标题】：How to cluster *features* based on their correlations to each other with sklearn k-means clustering如何使用 sklearn k-means 聚类根据彼此的相关性对 * 特征 * 进行聚类
【发布时间】：2019-03-07 20:18:17
【问题描述】：

我有一个 pandas 数据框，其中行作为记录（患者）和 105 列作为特征。（每个患者的属性）

我想对患者进行聚类，而不是按照惯例对行进行聚类，而是对列进行聚类，以便我可以查看哪些特征与哪些其他特征相似或相关。我已经可以使用df.corr() 计算每个特征与其他所有特征的相关性。但是如何使用sklearn.cluster.KMeans 将它们聚类到 k=2,3,4... 组中？

我尝试了KMeans(n_clusters=2).fit(df.T)，它确实对特征进行了聚类（因为我采用了矩阵的转置），但仅使用欧几里得距离函数，而不是根据它们的相关性。我更喜欢根据相关性对特征进行聚类。

这应该很容易，但非常感谢您的帮助。

【问题讨论】：

如果某个特征 A 与 B 相关并且 B 与 C 相关但 A 与 C 不相关，会发生什么？这种情况很容易出现。如果你有两个聚类（粗略地说，相关特征组和不相关特征组），那么 A 和 C 属于同一组（不相关特征）但 A 和 B 属于另一组（相关特征） .你会怎么处理？您的组之间不能有交集。
这可能有点愚蠢，但是 PCA 呢？如果多个特征是相关的，它们各自的由协方差矩阵分解提供的特征向量应该是“接近”的，对吗？您可以使用余弦相似度进行聚类吗？

标签： python machine-learning scikit-learn k-means sklearn-pandas

【解决方案1】：

通过获取所有特征 df.corr() 的相关性创建一个新矩阵，现在使用这个新矩阵作为 k-means 算法的数据集。这将为您提供具有相似相关性的特征集群。

【讨论】：

【解决方案2】：

KMeans 在这种情况下不是很有用，但您可以使用任何可以处理距离矩阵的聚类方法。例如 - 凝聚聚类。

我将使用 scipy，sklearn 版本更简单，但没有那么强大（例如，在 sklearn 中，您不能将 WARD 方法与距离矩阵一起使用）。

from scipy.cluster import hierarchy
import scipy.spatial.distance as ssd

df = ...  # your dataframe with many features
corr = df.corr()  # we can consider this as affinity matrix
distances = 1 - corr.abs().values  # pairwise distnces

distArray = ssd.squareform(distances)  # scipy converts matrix to 1d array
hier = hierarchy.linkage(distArray, method="ward")  # you can use other methods

阅读文档以了解 hier 结构。

你可以用

打印树状图

dend = hierarchy.dendrogram(hier, truncate_mode="level", p=30, color_threshold=1.5)

最后，为您的特征获取集群标签

threshold = 1.5  # choose threshold using dendrogram or any other method (e.g. quantile or desired number of features)

cluster_labels = hierarchy.fcluster(hier, threshold, criterion="distance")

【讨论】：