【发布时间】:2012-06-18 19:24:28
【问题描述】:
看起来 R 真的是为处理可以完全拉入内存的数据集而设计的。推荐哪些 R 包用于无法拉入内存的超大型数据集的信号处理和机器学习?
如果 R 完全是错误的方法,我愿意接受其他强大的免费建议(例如 scipy,如果有一些很好的方法来处理非常大的数据集)
【问题讨论】:
-
查看 CRAN 上 high performance computing task view 的“大内存和内存不足数据”小节。 bigmemory 和 ff 是两个流行的软件包。此外,考虑将数据存储在数据库中并以较小的批次读取数据以进行分析。
标签: r machine-learning signal-processing bigdata