【问题标题】:RandomForest in R with Large amount of featuresR中具有大量特征的随机森林
【发布时间】:2014-02-11 05:26:12
【问题描述】:

我有大约 10,000 个样本和 9,000 个特征。我正在尝试使用 RandomForest(RF 或 GRF)进行特征(变量)选择/减少。

当我使用 700 个功能时,这个概念非常有效,但对于 9,000 个,当我尝试运行 randomForest 或 RRF 时,即使使用 1 棵树(甚至使用 mtry=1),我也会等待几个小时,但什么也没发生。 (仅供参考,我使用 sampsize=800)

我希望至少能够运行 1 棵树,然后使用多台计算机并进行组合。

有什么可以提供帮助的想法吗?

罗尼

【问题讨论】:

  • 也许您使用了错误的降维方法。我会尝试 PCA,它应该更快。我相信 randomForest 是一个很好的预测模型,但速度很慢。至少使用“普通”笔记本电脑。减小维度后,尝试 randomForest。
  • 如果您要坚持使用随机森林,您可能需要研究一个名为 wsrf 的相对较新的包。此外,bigrf 可能值得一看。

标签: r random-forest


【解决方案1】:

我一直在处理同样的问题,我解决了如下:

  1. 将 9000 个特征分成 9 组,每组包含 1000 个特征,用于 10K 样本
  2. 为每个子组运行特征选择,然后从每个子组中选择 300 个信息量最大的特征
  3. 结合选定的 9*300 个特征并重复第 1 步和第 2 步
  4. 最终您将选择 300 个功能

这种方法可能会导致一些重要特征的丢失,但它通常会选择信息量最大的特征。顺便说一句,您可以根据需要更改所选特征大小(在给定示例中为 300)。

据我所知,除了暴力破解之外,没有其他方法可以在不丢失重要特征的情况下找到最佳特征子集。

【讨论】:

    猜你喜欢
    • 2020-05-16
    • 2018-12-01
    • 2016-02-25
    • 2015-09-28
    • 2021-05-09
    • 2017-07-19
    • 2021-08-29
    • 2015-03-14
    • 2018-05-01
    相关资源
    最近更新 更多