【发布时间】:2016-04-30 23:52:12
【问题描述】:
使用Spark 1.5.1, MLLib Random Forest Probability 的答案,我能够使用ml.classification.RandomForestClassifier 训练一个随机森林,并使用经过训练的随机森林处理一个保留数据帧。
我遇到的问题是,我想保存这个经过训练的随机森林,以便将来处理任何数据帧(与训练集具有相同的特征)。
classification example on this page 使用mllib.tree.model.RandomForestModel,它展示了如何保存经过训练的森林,但据我所知,只能在LabeledPoint RDD 上进行训练(并在未来进行处理)。我对LabeledPoint RDD 的问题是它只能包含标签双精度和特征向量,所以我会丢失所有用于其他目的的非标签/非特征列。
所以我想我需要一种方法来保存ml.classification.RandomForestClassifier 的结果,或者构造一个LabeledPoint RDD,它可以保留除通过mllib.tree.model.RandomForestModel 训练的森林所需的标签和特征之外的列。
任何人都知道为什么 ML 和 MLlib 库同时存在而不只是其中一个存在吗?
非常感谢您阅读我的问题,并提前感谢您提供任何解决方案/建议。
【问题讨论】:
标签: apache-spark apache-spark-sql apache-spark-mllib random-forest apache-spark-ml