【发布时间】:2016-06-27 05:47:30
【问题描述】:
我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率进行下采样。
是否可以在 Spark 随机森林训练中使用采样权重(本例中为 10)?我没有看到随机森林中trainClassifier() 的输入参数的权重。
【问题讨论】:
标签: scala apache-spark random-forest apache-spark-mllib