【发布时间】:2018-11-24 18:57:58
【问题描述】:
我有 100 种不同的随机森林模型。它们每个的大小平均为 300 MB(每个都经过 300 多个课程训练)。我正在使用 sklearn 的 (v0.19.1) 实现的随机森林。这会导致超过 30 GB 的内存使用。我需要内存中的所有模型,并尝试减少树的深度,但准确性的降低相当大。有没有人有任何想法和/或建议(实施?)可以帮助我减少内存占用?
【问题讨论】:
-
投反对票的人,请留下评论,以便我了解问题的问题所在。
-
为什么有100种不同的型号?既然 RF 已经是一个集合,那么更多地集合输出通常没有什么好处?
-
您是否尝试过使用
min_samples_split而不是max_depth来限制树木生长?这允许不同的树具有不同的深度,这在尝试使树更紧凑时很有用。 -
不同的模型,因为我要处理大量的类。所以我正在拆分训练。 min_samples_split 不是我尝试过的,我会尝试让您知道。
-
你总共有几节课?内存使用是在训练时出现问题,还是仅在推理时出现问题?
标签: machine-learning scikit-learn out-of-memory random-forest