如何在 Spark 中选择一个 kMean 集群作为新的 Dataframe

【问题标题】：How to select a kMean cluster as new Dataframe in Spark如何在 Spark 中选择一个 kMean 集群作为新的 Dataframe
【发布时间】：2019-02-20 03:39:40
【问题描述】：

我有一个包含几百万个条目的数据框，我使用了 k-Means 聚类，发现特定聚类的中心与其他聚类的中心非常不同。这很有趣。

如何选择属于该集群的条目以进一步调查它们？我们可以选择集群作为自己的数据框吗？

【问题讨论】：

标签： apache-spark cluster-analysis k-means apache-spark-mllib

【解决方案1】：

您使用的是 Spark ML 还是 Spark MLLib？请参阅 https://spark.apache.org/docs/latest/ml-clustering.html#k-means 中的示例 -- predictions 对象包含您要查找的内容。

【讨论】：

我明白了，因此将其与过滤器一起使用，我可以仅使用给定集群的结果创建数据框。我想我的错误是我有基于训练数据的模型，我不知道如何转换原始数据集。

猜你喜欢

2018-01-19
1970-01-01
1970-01-01
1970-01-01
2018-08-23
1970-01-01
2018-12-22
1970-01-01
2016-12-07

相关资源

下载 2023-03-10
下载 2023-03-28
下载 2023-02-17

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode