训练大数据时引擎挂起答案

【问题标题】：Engine hang when training large data训练大数据时引擎挂起
【发布时间】：2016-01-07 10:36:00
【问题描述】：

在训练 400 000 条记录（大约 200 MB）时，我遇到了类似产品模板 als 的问题。它在第 13 阶段停止：====================== [0 + 1] / 2

谁能帮我解决这个问题？

【问题讨论】：

【解决方案1】：

您在启动命令时使用的是迷你 Spark 服务器：

pio train

这个迷你服务器资源有限。您需要启动自己的 Spark 集群。它可以在与您的 PredictionIO 服务器相同的机器上启动。您需要使用以下命令独立启动 Spark：

./PredictionIO/vendors/spark-1.5.1/sbin/start-master.sh --webui-port 8180
./PredictionIO/vendors/spark-1.5.1/sbin/start-slave.sh spark://localhost:7077 --webui-port 8181

然后，您可以通过以下命令使用该 Spark 实例进行训练：

pio train -- --master spark://localhost:7077 --driver-memory 4G --executor-memory 8G

如果spark://localhost:7077无法访问，可以打开8180端口的Webui查看master的URL（页面第一行）。使用该 URL 连接您的奴隶和您的火车。

【讨论】：

亲爱的@bodyjares，我使用的是 8G RAM 机器，它可以与 --driver-memory 4G --executor-memory 8G 一起使用吗？如果不是，我需要减少多少 GB RAM？非常感谢。
默认情况下，Spark slave 配置了机器 RAM - 1G，因此您可以尝试使用 7G 启动它。如果您不确定 Spark slave 的配置方式，您可以前往localhost:8180 验证可用资源。从那里你会看到你的工人的可用内存。