【发布时间】:2019-08-17 11:04:52
【问题描述】:
我想在 224 GB 的数据集上使用 R 语言执行几种机器学习技术(逻辑回归、SVM、随机福雷斯特、神经网络),而我的 RAM 只有 16 GB。 我想一个解决方案可能是在云中租用具有 256 GB RAM 的虚拟 PC。例如,AWS 的 EC2 基于 Louis Aslett 的这篇文章中的 AMI: http://www.louisaslett.com/RStudio_AMI/
另外,我知道有几种并行处理方法和包。例如 Sparklyr、Future 和 ff。并行处理是否可以解决我的 RAM 受限问题?还是以更快的速度运行代码为目标的并行处理?
如果我认为并行处理是一种解决方案,我认为我需要修改机器学习包中的流程。例如,逻辑回归是用这行代码完成的:
模型
尽管据我所知,我对 glm 方法中的计算没有影响。
【问题讨论】:
-
可能值得看看high-performance task view,其中有一个关于“大内存和内存不足数据”的部分
标签: r amazon-ec2 parallel-processing future sparklyr