【问题标题】:Ideal Spark configuration理想的 Spark 配置
【发布时间】:2020-07-11 20:22:58
【问题描述】:

我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题,因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据,进行一些转换、聚合,然后存储在 HBase 中。

当前数据大小 = 3TB

可用资源: 节点总数:14 可用内存:1TB 总 VCore 数:450 总磁盘:150 TB

Spark 会议: 执行器核心数:2 执行者实例:50 执行器内存:40GB 最小分区数:600

如果上面的配置看起来不错,请提出建议,因为错误看起来像是 outOfMemory。

【问题讨论】:

    标签: apache-spark mapreduce hdfs mapr


    【解决方案1】:

    你能谈谈这些工作是如何失败的吗?没有更多的信息,这将很难说。如果您要说出哪个版本的 Spark 以及您是在 Yarn 下运行还是在独立的 Spark 集群(甚至在 Kubernetes 上)运行,这会有所帮助

    然而,即使没有任何信息,这里似乎也可能存在配置问题。可能发生的情况是,Spark 被告知有多少内存可用,因此当它尝试使用它认为允许使用的内存时,系统会拒绝。

    【讨论】:

      猜你喜欢
      • 2017-05-03
      • 2020-06-02
      • 1970-01-01
      • 2017-06-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-02-09
      相关资源
      最近更新 更多