Spark MLlib 随机森林训练中可以使用样本权重吗？

【问题标题】：Can sample weight be used in Spark MLlib Random Forest training?Spark MLlib 随机森林训练中可以使用样本权重吗？
【发布时间】：2016-06-27 05:47:30
【问题描述】：

我正在使用 Spark 1.5.0 MLlib 随机森林算法（Scala 代码）进行二分类。由于我使用的数据集高度不平衡，因此多数类以 10% 的采样率进行下采样。

是否可以在 Spark 随机森林训练中使用采样权重（本例中为 10）？我没有看到随机森林中trainClassifier() 的输入参数的权重。

【问题讨论】：

标签： scala apache-spark random-forest apache-spark-mllib

【解决方案1】：

在 Spark 1.5 中根本没有，在 Spark 1.6 中只是部分（逻辑/线性回归）

https://issues.apache.org/jira/browse/SPARK-7685

这是跟踪所有子任务的伞形 JIRA

https://issues.apache.org/jira/browse/SPARK-9610

【讨论】：

猜你喜欢

2017-03-19
1970-01-01
2020-11-30
2016-01-28
2017-01-22
2021-07-06
2018-06-13
2012-10-25
1970-01-01

相关资源

下载 2023-01-02
下载 2022-12-21
下载 2021-06-27
下载 2023-02-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode