【发布时间】:2018-02-25 22:55:53
【问题描述】:
DirectFileOutputCommitter 在 Spark 2.2.0 中不再可用。这意味着写入 S3 需要非常长的时间(3 小时对 2 分钟)。我可以通过在 spark-shell 中将 FileOutputCommitter 版本设置为 2 来解决此问题,
spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
同样不适用于 spark-sql
spark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
上面的命令似乎设置了 version=2,但是当查询被执行时,它仍然显示版本 1 的行为。
两个问题,
1) 如何使用 spark-sql 获得 FileOutputCommitter 版本 2 行为?
2) 有没有办法我仍然可以在 spark 2.2.0 中使用 DirectFileOutputCommitter? [我可以接受非零数据丢失的可能性]
相关项目:
【问题讨论】:
标签: hadoop apache-spark amazon-s3 apache-spark-sql amazon-emr