【发布时间】:2019-09-06 17:06:09
【问题描述】:
我正在使用 Apache Spark 的 ML 库构建机器学习模型,比如说 RandomForestClassifier。
我将数据集划分为如下训练和测试
(tr,test) = dataframe.randomSplit([0.8,0.2]), seed = 23)
应用模型
rf = RandomForestClassifier(numTrees=10,featuresCol = "features",
labelCol = "label")
model= rf.fit(tr)
prediction = model.transform(test)
eval = BinaryClassificationEvaluator(rawPredictionCol="rawPrediction")
eval.evaluate(prediction)
我的印象是这给我的 AUC 并不准确。如何获得此模型的 Precision、Recall、F1 和 Accuracy?
我的类变量是二进制(0 或 1)。
【问题讨论】:
-
度量类的 Scala 版本具有召回率、精度和 f1 spark.apache.org/docs/latest/mllib-evaluation-metrics.html - 出于某种原因,python API 没有
-
确实如此,您将不得不使用 MulticlassMetrics 而不是 BinaryClassificationMetrics,只需向下滚动一点 spark.apache.org/docs/latest/…
标签: apache-spark pyspark apache-spark-ml