【发布时间】:2015-03-17 00:19:32
【问题描述】:
数据集是熊猫数据框。这是 sklearn.cluster.KMeans
km = KMeans(n_clusters = n_Clusters)
km.fit(dataset)
prediction = km.predict(dataset)
这就是我决定哪个实体属于哪个集群的方式:
for i in range(len(prediction)):
cluster_fit_dict[dataset.index[i]] = prediction[i]
这是数据集的样子:
A 1 2 3 4 5 6
B 2 3 4 5 6 7
C 1 4 2 7 8 1
...
其中 A,B,C 是索引
这是使用 k-means 的正确方法吗?
【问题讨论】:
-
您的问题有点不清楚,sklearn 通常接受 numpy 数组作为输入,因此 pandas 数据帧是兼容的,在某些情况下我发现您需要返回一个 numpy 数组:
df.values或 df.col.values` 作为示例,所以基本上它应该可以工作,请尝试,如果遇到障碍,请返回代码和数据
标签: python pandas scikit-learn cluster-analysis k-means