Python MLLib KMeans 算法 - maxIterations 定义答案

【问题标题】：Python MLLib KMeans algorithm - maxIterations definitionPython MLLib KMeans 算法 - maxIterations 定义
【发布时间】：2019-05-28 00:51:01
【问题描述】：

我第一次在 Python 中使用MLlib，我正在努力完成一项简单的任务：我需要为KMean 算法定义多个maxIterations。而在 Scala 中它运行良好：

val kmeans = new KMeans
kmeans.setK(K)
kmeans.setMaxIterations(maxNumIters)

Python 的相同方法不会：

kmeans = KMeans().setK(K).setMaxIterations(maxNumIters)

我得到了错误：

AttributeError: 'KMeans' 对象没有属性 'setMaxIterations'

我在文档中找不到（可能是我的错），但基本上，我的问题是：我如何定义（在 Python 中）MaxIterations 用于 KMeans 算法？强>

【问题讨论】：

我认为您应该在 KMeans 中使用“maxIterations”参数而不是“setMaxIterations”。 spark.apache.org/docs/latest/api/python/_modules/pyspark/mllib/…
谢谢，@n1tk 绝对是一种可能的方法 - 在火车上。不过，我一直在寻找用这些值实例化的可能性。

标签： python k-means apache-spark-mllib

【解决方案1】：

嗯，我找到了办法：

kmeans = KMeans().setK(K).setMaxIter(maxNumIters)

顺便说一句，更注意细节，我可以在下面的命令中找到一些有用的信息，让我看到它不是setMaxIterations，而是setMaxIter：

kmeans = KMeans()
print(kmeans.explainParams())

解释：

featuresCol: features column name. (default: features)
initMode: The initialization algorithm. This can be either "random" to choose random points as initial cluster centers, or "k-means||" to use a parallel variant of k-means++ (default: k-means||)
initSteps: The number of steps for k-means|| initialization mode. Must be > 0. (default: 2)
k: The number of clusters to create. Must be > 1. (default: 2)
maxIter: max number of iterations (>= 0). (default: 20)
predictionCol: prediction column name. (default: prediction)
seed: random seed. (default: -7649703878154674547)
tol: the convergence tolerance for iterative algorithms (>= 0). (default: 0.0001)

【讨论】：

【解决方案2】：

您可以使用以下方法制作您的 kmeans 模型：-

model = KMeans.train(sc.parallelize(data), maxIterations=10)

其中 data 是您的训练数据。更多参数见link。

【讨论】：