【问题标题】:Can sample weight be used in Spark MLlib Random Forest training?Spark MLlib 随机森林训练中可以使用样本权重吗?
【发布时间】:2016-06-27 05:47:30
【问题描述】:

我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率进行下采样。

是否可以在 Spark 随机森林训练中使用采样权重(本例中为 10)?我没有看到随机森林中trainClassifier() 的输入参数的权重。

【问题讨论】:

    标签: scala apache-spark random-forest apache-spark-mllib


    【解决方案1】:

    在 Spark 1.5 中根本没有,在 Spark 1.6 中只是部分(逻辑/线性回归)

    https://issues.apache.org/jira/browse/SPARK-7685

    这是跟踪所有子任务的伞形 JIRA

    https://issues.apache.org/jira/browse/SPARK-9610

    【讨论】:

      猜你喜欢
      • 2017-03-19
      • 1970-01-01
      • 2020-11-30
      • 2016-01-28
      • 2017-01-22
      • 2021-07-06
      • 2018-06-13
      • 2012-10-25
      • 1970-01-01
      相关资源
      最近更新 更多