【问题标题】:Can Sparklyr be used on a local machine to get around R's memory limitations?可以在本地机器上使用 Sparklyr 来绕过 R 的内存限制吗?
【发布时间】:2017-06-11 03:09:31
【问题描述】:

我需要在不适合我计算机内存的数据上安装 GLM。通常为了解决这个问题,我会对数据进行采样,拟合模型,然后在内存不足的不同样本上进行测试。这对我来说是 R 的主要限制,这就是为什么适合 GLM 的 SAS 是首选的原因,因为它不会因不适合内存的数据而绊倒。

我一直在尝试寻找在本地计算机上使用 R 解决此问题的方法,并想知道是否可以使用 Sparklyr 来解决内存问题?我意识到 Spark 旨在用于集群环境等,但直接 - Sparklyr 可以用于处理我本地机器上的数据,否则这些数据将不适合其内存?

【问题讨论】:

  • 如果您搜索与内存不足的 glm 和 R 相关的内容,您会遇到 ff 包和 biglm 包。您可以开始阅读文档并查找示例。
  • 感谢您的建议。我现在确实看过它们。也许我没有完全了解他们的工作原理,但似乎 ff 和“大”R 包系列大多是不能与其他 R 包(等 Tidyverse)无缝集成的解决方法,所以我认为没有解决办法'正常工作'。

标签: r rstudio sparklyr


【解决方案1】:

Spark 和 Sparklyr 在分配负载方面表现出色,但不太可能通过单个 Spark 实例解决您的问题。 H2O 可能会让你的运气更好https://cran.r-project.org/web/packages/h2o/index.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-20
    • 2018-12-04
    • 2017-08-24
    • 2014-01-30
    • 2014-11-20
    • 2012-04-11
    相关资源
    最近更新 更多