【发布时间】:2014-02-11 05:26:12
【问题描述】:
我有大约 10,000 个样本和 9,000 个特征。我正在尝试使用 RandomForest(RF 或 GRF)进行特征(变量)选择/减少。
当我使用 700 个功能时,这个概念非常有效,但对于 9,000 个,当我尝试运行 randomForest 或 RRF 时,即使使用 1 棵树(甚至使用 mtry=1),我也会等待几个小时,但什么也没发生。 (仅供参考,我使用 sampsize=800)
我希望至少能够运行 1 棵树,然后使用多台计算机并进行组合。
有什么可以提供帮助的想法吗?
罗尼
【问题讨论】:
-
也许您使用了错误的降维方法。我会尝试 PCA,它应该更快。我相信 randomForest 是一个很好的预测模型,但速度很慢。至少使用“普通”笔记本电脑。减小维度后,尝试 randomForest。
-
如果您要坚持使用随机森林,您可能需要研究一个名为 wsrf 的相对较新的包。此外,bigrf 可能值得一看。
标签: r random-forest