【发布时间】:2017-06-11 03:09:31
【问题描述】:
我需要在不适合我计算机内存的数据上安装 GLM。通常为了解决这个问题,我会对数据进行采样,拟合模型,然后在内存不足的不同样本上进行测试。这对我来说是 R 的主要限制,这就是为什么适合 GLM 的 SAS 是首选的原因,因为它不会因不适合内存的数据而绊倒。
我一直在尝试寻找在本地计算机上使用 R 解决此问题的方法,并想知道是否可以使用 Sparklyr 来解决内存问题?我意识到 Spark 旨在用于集群环境等,但直接 - Sparklyr 可以用于处理我本地机器上的数据,否则这些数据将不适合其内存?
【问题讨论】:
-
如果您搜索与内存不足的 glm 和 R 相关的内容,您会遇到
ff包和biglm包。您可以开始阅读文档并查找示例。 -
感谢您的建议。我现在确实看过它们。也许我没有完全了解他们的工作原理,但似乎 ff 和“大”R 包系列大多是不能与其他 R 包(等 Tidyverse)无缝集成的解决方法,所以我认为没有解决办法'正常工作'。