【问题标题】:Engine hang when training large data训练大数据时引擎挂起
【发布时间】:2016-01-07 10:36:00
【问题描述】:

在训练 400 000 条记录(大约 200 MB)时,我遇到了类似产品模板 als 的问题。 它在第 13 阶段停止:====================== [0 + 1] / 2

谁能帮我解决这个问题?

【问题讨论】:

    标签: predictionio


    【解决方案1】:

    您在启动命令时使用的是迷你 Spark 服务器:

    pio train
    

    这个迷你服务器资源有限。您需要启动自己的 Spark 集群。它可以在与您的 PredictionIO 服务器相同的机器上启动。您需要使用以下命令独立启动 Spark:

    ./PredictionIO/vendors/spark-1.5.1/sbin/start-master.sh --webui-port 8180
    ./PredictionIO/vendors/spark-1.5.1/sbin/start-slave.sh spark://localhost:7077 --webui-port 8181
    

    然后,您可以通过以下命令使用该 Spark 实例进行训练:

    pio train -- --master spark://localhost:7077 --driver-memory 4G --executor-memory 8G
    

    如果spark://localhost:7077无法访问,可以打开8180端口的Webui查看master的URL(页面第一行)。使用该 URL 连接您的奴隶和您的火车。

    【讨论】:

    • 亲爱的@bodyjares,我使用的是 8G RAM 机器,它可以与 --driver-memory 4G --executor-memory 8G 一起使用吗?如果不是,我需要减少多少 GB RAM?非常感谢。
    • 默认情况下,Spark slave 配置了机器 RAM - 1G,因此您可以尝试使用 7G 启动它。如果您不确定 Spark slave 的配置方式,您可以前往localhost:8180 验证可用资源。从那里你会看到你的工人的可用内存。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-19
    • 2020-05-27
    • 2014-04-04
    • 2016-07-03
    • 1970-01-01
    • 2021-02-19
    相关资源
    最近更新 更多