【发布时间】:2021-04-13 12:03:37
【问题描述】:
有谁知道 Python / PySpark 中的任何简单算法来检测 K-means 聚类中的异常值并创建这些异常值的列表或数据框?我不确定如何获得质心。我正在使用以下代码:
n_clusters = 10
kmeans = KMeans(k = n_clusters, seed = 0)
model = kmeans.fit(Data.select("features"))
【问题讨论】:
标签: python apache-spark pyspark k-means outliers