【发布时间】:2019-02-20 03:39:40
【问题描述】:
我有一个包含几百万个条目的数据框,我使用了 k-Means 聚类,发现特定聚类的中心与其他聚类的中心非常不同。这很有趣。
如何选择属于该集群的条目以进一步调查它们?我们可以选择集群作为自己的数据框吗?
【问题讨论】:
标签: apache-spark cluster-analysis k-means apache-spark-mllib
我有一个包含几百万个条目的数据框,我使用了 k-Means 聚类,发现特定聚类的中心与其他聚类的中心非常不同。这很有趣。
如何选择属于该集群的条目以进一步调查它们?我们可以选择集群作为自己的数据框吗?
【问题讨论】:
标签: apache-spark cluster-analysis k-means apache-spark-mllib
您使用的是 Spark ML 还是 Spark MLLib?
请参阅 https://spark.apache.org/docs/latest/ml-clustering.html#k-means 中的示例 -- predictions 对象包含您要查找的内容。
【讨论】: