【发布时间】:2017-02-01 23:36:29
【问题描述】:
我已经使用 scikit learn 构建了一个分类器,现在我想使用 spark 在大型数据集上运行 predict_proba。我目前使用一次腌制分类器:
import pickle
pickle.dump(clf, open('classifier.pickle', 'wb'))
然后在我的 spark 代码中,我使用 sc.broadcast 广播这个 pickle,以便在我的 spark 代码中使用,该代码必须在每个集群节点上加载它。
这可行,但泡菜很大(大约 0.5GB),而且效率似乎很低。
有没有更好的方法来做到这一点?
【问题讨论】:
-
你用的是哪个分类器?
-
@miraculixx RandomForestClassifer
-
请查看我的答案以获得一些选项,您介意使用
sc.broadcast或一些指针分享您的方法吗?谢谢。
标签: apache-spark scikit-learn pyspark