如何在 python 中的 KMeans 聚类中获得 X 值？

【问题标题】：How do you get the X value in KMeans clustering in python?如何在 python 中的 KMeans 聚类中获得 X 值？
【发布时间】：2019-12-05 22:47:57
【问题描述】：

我是 KMeans 的初学者。你如何理解取什么 X 值？我有一个包含多行和多列的数据框。我不知道如何获取一个特定的 X 值。

我无法替换整个数据框。例如：

df = pd.read_csv("cereal.csv")
kmeans = KMeans(n_clusters=4)
kmeans.fit(X) ## How do I get this X?

【问题讨论】：

【解决方案1】：

X 基本上是数据框中的所有值，在本例中为 df。

例如：

from sklearn.cluster import KMeans

X = df.values.astype(np.float)
kmeans = KMeans(n_clusters = 4).fit(X)

要查看分配的标签，您现在可以：

predicted_values = kmeans.labels_

注意：

在将数据传递给 KMeans 算法之前，您可能必须执行数据清理并删除特征。换句话说，可以删除某些列，例如，如果您有 ID，则可以删除。

如果您的任何列具有string 值，则需要将它们编码为numerical 格式。例如，您不能传递high 或low 之类的值，您需要将它们编码为0 或1。

【讨论】：