【发布时间】:2016-04-09 21:33:17
【问题描述】:
Random Forests 的 documentation 不包括功能重要性。但是,它在Jira 上列为已解决,并且在source code 中。 HERE 还说“此 API 与原始 MLlib 集成 API 之间的主要区别是:
- 支持 DataFrames 和 ML Pipelines
- 分类与回归的分离
- 使用 DataFrame 元数据来区分连续和分类 功能
- 更多随机森林功能:特征估计 重要性,以及每个类的预测概率 (又名类条件概率)用于分类。”
但是,我想不出一种可以调用此新功能的语法。
scala> model
res13: org.apache.spark.mllib.tree.model.RandomForestModel =
TreeEnsembleModel classifier with 10 trees
scala> model.featureImportances
<console>:60: error: value featureImportances is not a member of org.apache.spark.mllib.tree.model.RandomForestModel
model.featureImportances
【问题讨论】:
标签: scala apache-spark random-forest apache-spark-mllib