【问题标题】:How to select a kMean cluster as new Dataframe in Spark如何在 Spark 中选择一个 kMean 集群作为新的 Dataframe
【发布时间】:2019-02-20 03:39:40
【问题描述】:

我有一个包含几百万个条目的数据框,我使用了 k-Means 聚类,发现特定聚类的中心与其他聚类的中心非常不同。这很有趣。

如何选择属于该集群的条目以进一步调查它们?我们可以选择集群作为自己的数据框吗?

【问题讨论】:

    标签: apache-spark cluster-analysis k-means apache-spark-mllib


    【解决方案1】:

    您使用的是 Spark ML 还是 Spark MLLib? 请参阅 https://spark.apache.org/docs/latest/ml-clustering.html#k-means 中的示例 -- predictions 对象包含您要查找的内容。

    【讨论】:

    • 我明白了,因此将其与过滤器一起使用,我可以仅使用给定集群的结果创建数据框。我想我的错误是我有基于训练数据的模型,我不知道如何转换原始数据集。
    猜你喜欢
    • 2018-01-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-23
    • 1970-01-01
    • 2018-12-22
    • 1970-01-01
    • 2016-12-07
    相关资源
    最近更新 更多