【发布时间】:2020-07-11 20:22:58
【问题描述】:
我在我们的项目中使用带有 MapR 的 HDFS 上的 Apache spark。我们面临运行 spark Jobs 的问题,因为它在数据小幅增加后失败。我们正在从 csv 文件中读取数据,进行一些转换、聚合,然后存储在 HBase 中。
当前数据大小 = 3TB
可用资源: 节点总数:14 可用内存:1TB 总 VCore 数:450 总磁盘:150 TB
Spark 会议: 执行器核心数:2 执行者实例:50 执行器内存:40GB 最小分区数:600
如果上面的配置看起来不错,请提出建议,因为错误看起来像是 outOfMemory。
【问题讨论】:
标签: apache-spark mapreduce hdfs mapr