【发布时间】:2015-03-30 18:25:37
【问题描述】:
我编写了一个模仿现有 Map Reduce 作业功能的 Spark 程序。 MR 作业每天大约需要 50 分钟,而 Spark 作业只需要 9 分钟!那太棒了!
当我查看输出目录时,我注意到它创建了 1,020 个零件文件。 MR 作业仅使用 20 个 reducer,因此它仅创建 20 个文件。我们需要减少输出文件的数量;否则我们的命名空间很快就会被填满。
我试图弄清楚如何减少 Spark 下的输出文件数量。似乎触发了 1,020 个任务,每个任务都创建了一个零件文件。这个对吗?我是否必须更改并行度才能减少。的任务,从而减少没有。输出文件?如果是这样,我该如何设置?我害怕减少不。的任务会减慢这个过程——但我可以测试一下!
【问题讨论】:
标签: apache-spark