R中具有大量特征的随机森林答案

【问题标题】：RandomForest in R with Large amount of featuresR中具有大量特征的随机森林
【发布时间】：2014-02-11 05:26:12
【问题描述】：

我有大约 10,000 个样本和 9,000 个特征。我正在尝试使用 RandomForest（RF 或 GRF）进行特征（变量）选择/减少。

当我使用 700 个功能时，这个概念非常有效，但对于 9,000 个，当我尝试运行 randomForest 或 RRF 时，即使使用 1 棵树（甚至使用 mtry=1），我也会等待几个小时，但什么也没发生。（仅供参考，我使用 sampsize=800）

我希望至少能够运行 1 棵树，然后使用多台计算机并进行组合。

有什么可以提供帮助的想法吗？

罗尼

【问题讨论】：

也许您使用了错误的降维方法。我会尝试 PCA，它应该更快。我相信 randomForest 是一个很好的预测模型，但速度很慢。至少使用“普通”笔记本电脑。减小维度后，尝试 randomForest。
如果您要坚持使用随机森林，您可能需要研究一个名为 wsrf 的相对较新的包。此外，bigrf 可能值得一看。

【解决方案1】：

我一直在处理同样的问题，我解决了如下：

这种方法可能会导致一些重要特征的丢失，但它通常会选择信息量最大的特征。顺便说一句，您可以根据需要更改所选特征大小（在给定示例中为 300）。

据我所知，除了暴力破解之外，没有其他方法可以在不丢失重要特征的情况下找到最佳特征子集。

【讨论】：