理想的 Spark 配置答案

【问题标题】：Ideal Spark configuration理想的 Spark 配置
【发布时间】：2020-07-11 20:22:58
【问题描述】：

我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题，因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据，进行一些转换、聚合，然后存储在 HBase 中。

当前数据大小 = 3TB

可用资源：节点总数：14 可用内存：1TB 总 VCore 数：450 总磁盘：150 TB

Spark 会议：执行器核心数：2 执行者实例：50 执行器内存：40GB 最小分区数：600

如果上面的配置看起来不错，请提出建议，因为错误看起来像是 outOfMemory。

【问题讨论】：

【解决方案1】：

你能谈谈这些工作是如何失败的吗？没有更多的信息，这将很难说。如果您要说出哪个版本的 Spark 以及您是在 Yarn 下运行还是在独立的 Spark 集群（甚至在 Kubernetes 上）运行，这会有所帮助

然而，即使没有任何信息，这里似乎也可能存在配置问题。可能发生的情况是，Spark 被告知有多少内存可用，因此当它尝试使用它认为允许使用的内存时，系统会拒绝。

【讨论】：