【问题标题】:Spark streaming uses lesser number of executorsSpark 流使用较少数量的执行器
【发布时间】:2016-11-09 10:21:50
【问题描述】:

我正在使用火花流处理一些事件。它以独立模式部署,有 1 个 master 和 3 个 worker。我已将每个执行器的核心数设置为 4,将执行器的总数设置为 24。这意味着将产生总共 6 个执行器。我已将 spread-out 设置为 true。所以每台工作机器都有 2 个执行者。我的批处理间隔是 1 秒。此外,我已将批次重新分区为 21。其余 3 个用于接收器。在运行我从事件时间线观察到的情况时,只有 3 个执行程序正在被使用。其他 3 个未使用。据我所知,spark独立模式下没有参数来指定执行者的数量。如何让 spark 使用所有可用的执行程序?

【问题讨论】:

    标签: scala apache-spark spark-streaming


    【解决方案1】:

    可能您的流式传输没有那么多分区来填充每 1 秒小批量的所有执行程序。尝试将repartition(24) 作为第一个流转换以使用完整的 Spark 集群功能。

    【讨论】:

    • 我对 21 个进行了重新分区。其余 3 个用于接收者。
    • 奇怪..你能更新问题附加应用程序源吗?
    猜你喜欢
    • 1970-01-01
    • 2016-12-22
    • 1970-01-01
    • 1970-01-01
    • 2014-11-27
    • 2017-01-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多