【发布时间】:2012-02-22 20:28:42
【问题描述】:
假设我想创建一个二进制分类器来检测垃圾邮件。我有十亿个训练示例和大约 20 个特征。我希望训练有素的分类器适合内存(我将在实际上是 rpc 调用的云和磁盘操作上运行它会非常昂贵)。
我的问题是:如何估算我需要的内存量?假设我的分类器是随机森林,而我对训练集中垃圾邮件消息的分布一无所知。
只有数字:两个类、十亿个示例、20 个特征。
这样的估计是否可能?怎么办?
【问题讨论】:
-
你是想在内存中拟合十亿个训练样本还是在内存中拟合训练好的模型?
-
@MichaelMcGowan:在内存中拟合训练好的模型并实时运行分类。
-
这在理论上取决于树的大小,实际上取决于实际实现。
标签: machine-learning classification random-forest