【发布时间】:2012-11-14 05:26:56
【问题描述】:
我正在尝试找出 CRAN/github/R-Forge 上的 R 或 R 包中的哪些统计/数据挖掘算法可以在 1 台服务器上并行或按顺序处理大型数据集,而不会遇到问题。内存问题或同时在多台机器上工作。 这是为了评估我是否可以轻松地将它们移植到 ff/ffbase 中,例如 ffbase::bigglm.ffdf。
我想把这些分成三部分:
-
并行更新或处理参数估计的算法
Buckshot (https://github.com/lianos/buckshot)
lm.fit @ 大数据编程 (https://github.com/RBigData)
-
按顺序工作的算法(在 R 中获取数据但仅使用 1 个进程且仅 1 个进程更新参数)
bigglm (http://cran.r-project.org/web/packages/biglm/index.html)
复合泊松线性模型 (http://cran.r-project.org/web/packages/cplm/index.html)
Kmeans @ biganalytics (http://cran.r-project.org/web/packages/biganalytics/index.html)
-
处理部分数据
- 分布式文本处理 (http://www.jstatsoft.org/v51/i05/paper)
我想排除简单的并行化,例如通过例如优化超参数交叉验证。 任何其他指向这些模型/优化器或算法的指针?也许是贝叶斯?也许是一个名为 RGraphlab (http://graphlab.org/) 的包?
【问题讨论】:
-
没有人因为使用 hadoop 而被解雇
-
不确定 monetdb 如何处理多个处理器,但它在大数据上的运行速度确实很快,值得一看 :) -- usgsd.blogspot.com/2012/11/…
-
谢谢,但我更多的是寻找算法,而不是数据存储。
-
thx Joris,我知道所有这些,但我正在寻找一种并行算法,而不是如何处理大数据的技巧,而是在核心中并行的统计模型。
标签: algorithm r memory machine-learning bigdata