【发布时间】:2016-03-02 13:57:40
【问题描述】:
使用 python + scikit-learn,我将“极端随机树”分类器 (ExtraTreesClassifier) 拟合到包含 100 个特征的约 900K 样本数组(实值 float64)。然后我试着腌制它。
我实例化了分类器:
cls = ExtraTreesClassifier(n_estimators=10, random_state=0, n_jobs=-1)
拟合后,我尝试了两种保存方式:
pickle.dump(cls, open(classifier_file, "wb"))
并且,使用 joblib:
from sklearn.externals import joblib joblib.dump(cls, classifier_file)
在普通的 pickle 中,它占用了 4+ GB 的空间! 在 joblib 版本中,它占用了大约 1.5 GB 的空间。
它是否固有地存储了一些适合或预测的原始输入数据?
【问题讨论】:
标签: python scikit-learn classification pickle joblib