【问题标题】:Apply the machine learning packages in R to a large data set [closed]将 R 中的机器学习包应用于大型数据集 [关闭]
【发布时间】:2017-04-02 10:43:12
【问题描述】:

我有一个大约 1GB 的数据集,它不适合内存(因为当我们在 R 中应用 LM 时,它也会创建其他消耗内存的变量)。我想知道在这种情况下是否有办法在 R 中仍然使用那些不错的机器学习包(例如 glm、随机森林、神经网络)来进行分析?我感谢任何建议和参考。

【问题讨论】:

  • 检查HPC task view的“大内存和内存不足数据”部分

标签: r machine-learning packages scalability large-data


【解决方案1】:

请参阅high-performance task view on CRAN,特别是有关大内存和内存不足数据的部分。

或者:您可能需要付费,但请考虑使用Microsoft R Server。 MRS(以前称为 Revolution R Enterprise)旨在打破处理大型数据集时的内存障碍。它适用于 Windows 和 Linux,还允许使用 SQL Server、Teradata、Hadoop(Cloudera、Hortonworks 和 HDInsight)和 Spark 进行数据库内分析。

披露:我是 Microsoft 员工。

【讨论】:

    【解决方案2】:

    如果您可以使用 Spark,请考虑 sparklyr(免费)。

    【讨论】:

    • 这将是对洪的回答的一个很好的评论,但它本身并不是一个真正的答案。
    • 答案如下。我已经删除了“评论”。
    猜你喜欢
    • 2012-06-18
    • 2015-04-11
    • 2017-04-20
    • 2016-04-12
    • 2010-10-23
    • 2015-06-07
    • 2011-03-13
    • 1970-01-01
    相关资源
    最近更新 更多