【发布时间】:2018-09-15 19:01:39
【问题描述】:
问题:
我有多个交易数据数据集,用于预测事件(作为结果的二进制分类)。其中之一有 10,587,989 行 23 列。我正在尝试使用 10 倍 cv 和 ctree (package:party) 运行 gradient boosting,但每次运行这些模型时,我的系统都会崩溃。
硬件:
16 核、48 gig RAM、48 gig SWAP
问题:
是什么导致 R 在处理大型数据集时崩溃,即使在使用并行处理、添加更多内存、弹跳系统之后?
我尝试过的事情:
通过
doParallel启用并行处理,执行xgBoost 通过caret,我看到每个核心都亮起,RAM 和交换正在 通过 linux 中的top函数充分利用但最终 每次都崩溃。退回 RStudio 服务器,重新启动系统作为初始 机动但问题仍然存在。
我确实发现有人评论 H2O。我还联系了供应商并询问了他的解决方案,他建议使用 Sparkly,但您需要在服务器中安装 Hadoop 层才能运行 Sparkly。
【问题讨论】:
标签: r apache-spark h2o