【发布时间】:2016-12-20 17:03:50
【问题描述】:
因此,Spark 有文件spark-defaults.xml 用于指定哪些设置,包括要使用的压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。
已编辑:
conf = SparkConf()
conf.set("spark.hadoop.mapred.output.compress", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")
如何使用spark-defaults.xml 告诉 Spark 使用特定编解码器仅压缩 Spark 输出?
选项 1
spark.hadoop.mapred.output.compress true
spark.hadoop.mapred.output.compression.codec snappy
选项 2:
spark.mapreduce.output.fileoutputformat.compress true
spark.mapreduce.output.fileoutputformat.compress.codec snappy
选项 3:
mapreduce.output.fileoutputformat.compress true
mapreduce.output.fileoutputformat.compress.codec snappy
任何人都有正确的方法来设置这个(从这些选项中的任何一个或类似的东西)?我正在运行 Spark 1.6.1。
【问题讨论】:
标签: hadoop apache-spark hadoop-plugins