将 R 中的机器学习包应用于大型数据集 [关闭]答案

【问题标题】：Apply the machine learning packages in R to a large data set [closed]将 R 中的机器学习包应用于大型数据集 [关闭]
【发布时间】：2017-04-02 10:43:12
【问题描述】：

我有一个大约 1GB 的数据集，它不适合内存（因为当我们在 R 中应用 LM 时，它也会创建其他消耗内存的变量）。我想知道在这种情况下是否有办法在 R 中仍然使用那些不错的机器学习包（例如 glm、随机森林、神经网络）来进行分析？我感谢任何建议和参考。

【问题讨论】：

检查HPC task view的“大内存和内存不足数据”部分

标签： r machine-learning packages scalability large-data

【解决方案1】：

请参阅high-performance task view on CRAN，特别是有关大内存和内存不足数据的部分。

或者：您可能需要付费，但请考虑使用Microsoft R Server。 MRS（以前称为 Revolution R Enterprise）旨在打破处理大型数据集时的内存障碍。它适用于 Windows 和 Linux，还允许使用 SQL Server、Teradata、Hadoop（Cloudera、Hortonworks 和 HDInsight）和 Spark 进行数据库内分析。

披露：我是 Microsoft 员工。

【讨论】：

【解决方案2】：

如果您可以使用 Spark，请考虑 sparklyr（免费）。

【讨论】：

这将是对洪的回答的一个很好的评论，但它本身并不是一个真正的答案。
答案如下。我已经删除了“评论”。